生成式AI模型性能与架构创新 - 谷歌Gemini 3 Flash模型在SWE-Bench Verified测试中获得78%的分数,超越了Pro版的76.2%,其速度是Gemini 2.5 Pro的3倍,且Token消耗量减少30% [1] - Gemini Flash集成了大量Agentic RL研究成果,通过后训练算法实现小模型“降维打击”,而Pro版的主要作用是蒸馏Flash [1] - 帕累托前沿反转现象表明,参数规模不再是衡量模型性能的唯一标准,更便宜、更快的模型现在也可以是更聪明的模型 [1] - MiniMax开源其海螺视频底层技术VTP(视觉分词器预训练框架),在AI视觉生成领域发现了Scaling Law,破解了“第一阶段训练越好第二阶段反而变差”的悖论 [3] - VTP通过重建、CLIP图文对比和自监督学习三管齐下的训练方案,使视觉分词器学会理解而非只会重建,算力扩大10倍性能提升65.8% [3] - 通义千问推出Qwen-Image-Layered图像生成模型,采用自研架构将图片拆解成多个RGBA图层,每层可独立操作而不影响其他内容 [4] - 该模型核心技术包括RGBA-VAE和VLD-MMDiT,支持重新着色、物体替换、缩放移动、干净删除等操作,分层结构天然支持高保真编辑 [4] 自动驾驶技术路线与挑战 - 旧金山一场大停电导致红绿灯熄灭,Waymo无人驾驶出租车因系统无法确认安全边界而集体停摆,秒变路障 [2] - 事件凸显了Waymo与特斯拉技术路线的差异:Waymo依赖多传感器融合和高精地图,而特斯拉FSD依赖视觉和AI,后者在此次事件中完全未受影响 [2] - 该事件暴露了L4级无人驾驶在突发城市基础设施异常状况下的脆弱性 [2] AI公司发展与资本市场动态 - AI公司MiniMax正式冲刺港股“大模型第一股”,公司成立于2022年初,拥有385人团队,平均年龄29岁 [5] - 公司累计消耗5亿美元,约为OpenAI开销的不到1% [5] - 2025年前9个月,MiniMax营收达5344万美元,同比增长超170%,海外收入占比超70% [6] - MiniMax拥有超2.12亿个人用户和13万家企业客户 [6] - 公司股东阵容包括米哈游、阿里、腾讯、小红书、高瓴、红杉等,董事会平均年龄32岁 [6] - MiniMax是全球唯四全模态进入第一梯队的大模型公司 [6] 前沿硬件与计算技术突破 - 上海交大陈一彤团队推出全光生成式AI芯片LightGen,首次将光子计算拓展至大模型语义媒体生成领域,研究登上《Science》 [7] - LightGen由光子编码器、光学潜在空间和光子生成器构成,能实现512×512高分辨率图像生成、3D生成、高清视频生成及语义调控 [7] - 该系统速度达3.57×10^4 TOPS,能效达6.64×10^2 TOPS/W,计算密度达2.62×10^2 TOPS/mm²,整体性能比英伟达A100高出两个数量级以上 [7] AGI发展路径与安全框架 - DeepMind发布研究提出,AGI极可能通过多个次级AGI智能体协作与拼凑率先涌现,而非单一庞大模型 [8] - 论文提出了包含市场设计、基线智能体安全、监控与监督、监管机制的四层深度防御框架 [8] - 研究强调“拼凑型AGI”假设此前受关注甚少,建议构建虚拟智能体沙盒经济以解决智能体共谋等分布式风险 [8] 创业经验与团队管理 - ElevenLabs和Lovable的CEO建议创业前积累7-8年工作经验,包括在优秀公司的任职经历和对用户痛点的深刻理解 [9] - 高速扩张的关键在于保持“创始人模式”与“管理模式”的平衡,团队构成建议一半内部培养一半外部资深人士,并采用高强度工作模式 [9] - 欧洲创业虽缺乏成熟创业网络和资深高管,但人才优秀且忠诚度高,时区优势可同时对接全球市场 [9]
腾讯研究院AI速递 20251223
腾讯研究院·2025-12-22 16:08