新模型“屠榜”,对话谷歌团队:AI“新旗手”如何诞生
谷歌谷歌(US:GOOG) 第一财经·2025-11-19 04:33

模型性能突破 - 新模型在几乎所有主流基准测试中实现全面领先,大模型竞争格局可能就此改写,甚至有业内人士预言未来六个月内很难有公司能够超越这一成绩 [1] - 在“人类最后一次考试”基准测试中,新模型在不使用工具的情况下取得37.5%的成绩,领先第二名GPT-5.1的26.5%约10个百分点 [6] - 在衡量研究生水平推理的GPQA Diamond测试中,新模型得分达到91.9%,高于GPT-5.1的88.1% [6] - 在多模态理解和推理方面,新模型以81%的MMMU-Pro分数和87.6%的Video-MMMU分数刷新纪录 [6] - 在数学能力测试AIME 2025中,不使用工具时达到95.0%,使用代码执行时达到100% [5] - 在竞技编程LiveCodeBench Pro测试中,新模型Elo评级达到2,439,显著高于GPT-5.1的2,243 [5] 实际应用与用户体验 - 用户测试反馈显示,新模型在图像生成和复杂网页复刻等任务上表现超出预期,有用户表示“亲眼看新模型一口气写完一个web操作系统,脑子里嗡嗡的” [7] - 产品团队在训练过程中发现,新模型在代码生成方面表现惊人,只需简单提示就能生成各类游戏,并能生成可交互的3D可视化内容 [10] - 公司高管透露已使用新模型的智能体功能处理日常任务,如整理邮件收件箱和购买演唱会门票,能自动提炼待办任务、筛选邮件并完成票务组合筛选 [11] - 公司期望用户能用新模型处理生活中遇到的“多步骤复杂的任务”,这是该模型的强项 [12] 商业化与生态整合 - 在发布第一天就将新模型整合进搜索引擎,为其带来很强的推理能力并解锁新的生成UI体验,例如用户询问物理学三体问题可直接得到可交互的模拟界面 [13] - 同步发布全新的“类IDE”AI编程产品Antigravity,押注编程领域,智能体可以代表用户自主地规划和执行复杂的端到端软件任务 [16] - 月活跃用户已超过6.5亿,有超过1300万名开发者正基于该模型构建应用,而由该模型支持的搜索AI概览功能每月用户量超过20亿 [18] - 公司母公司的股价被机构上调目标至每股320美元,市值一度突破3.5万亿美元创历史新高,目前维持在3.43万亿美元的历史高位 [18] 技术优势与发展战略 - 公司能在三年间完成从追赶到领先的反超,核心原因之一是团队保持极快的发展节奏,并拥有差异化的全栈式技术方案,从硬件基础设施、自研TPU芯片到大规模训练和前沿研究环环相扣 [19] - 公司认为技术进步不一定体现在全新能力的诞生,更体现在“模型能赋能的新场景”上,从预训练到后训练的整个开发流程中都看到了全方位的积极进展 [20] - 此次模型被视为公司迈向通用人工智能的下一步,目前这一步比同类竞争对手更快 [21]