新模型“屠榜”，对话谷歌团队：AI“新旗手”如何诞生

模型性能突破 - 新模型在几乎所有主流基准测试中实现全面领先，大模型竞争格局可能就此改写，甚至有业内人士预言未来六个月内很难有公司能够超越这一成绩 [1] - 在“人类最后一次考试”基准测试中，新模型在不使用工具的情况下取得37.5%的成绩，领先第二名GPT-5.1的26.5%约10个百分点 [6] - 在衡量研究生水平推理的GPQA Diamond测试中，新模型得分达到91.9%，高于GPT-5.1的88.1% [6] - 在多模态理解和推理方面，新模型以81%的MMMU-Pro分数和87.6%的Video-MMMU分数刷新纪录 [6] - 在数学能力测试AIME 2025中，不使用工具时达到95.0%，使用代码执行时达到100% [5] - 在竞技编程LiveCodeBench Pro测试中，新模型Elo评级达到2,439，显著高于GPT-5.1的2,243 [5] 实际应用与用户体验 - 用户测试反馈显示，新模型在图像生成和复杂网页复刻等任务上表现超出预期，有用户表示“亲眼看新模型一口气写完一个web操作系统，脑子里嗡嗡的” [7] - 产品团队在训练过程中发现，新模型在代码生成方面表现惊人，只需简单提示就能生成各类游戏，并能生成可交互的3D可视化内容 [10] - 公司高管透露已使用新模型的智能体功能处理日常任务，如整理邮件收件箱和购买演唱会门票，能自动提炼待办任务、筛选邮件并完成票务组合筛选 [11] - 公司期望用户能用新模型处理生活中遇到的“多步骤复杂的任务”，这是该模型的强项 [12] 商业化与生态整合 - 在发布第一天就将新模型整合进搜索引擎，为其带来很强的推理能力并解锁新的生成UI体验，例如用户询问物理学三体问题可直接得到可交互的模拟界面 [13] - 同步发布全新的“类IDE”AI编程产品Antigravity，押注编程领域，智能体可以代表用户自主地规划和执行复杂的端到端软件任务 [16] - 月活跃用户已超过6.5亿，有超过1300万名开发者正基于该模型构建应用，而由该模型支持的搜索AI概览功能每月用户量超过20亿 [18] - 公司母公司的股价被机构上调目标至每股320美元，市值一度突破3.5万亿美元创历史新高，目前维持在3.43万亿美元的历史高位 [18] 技术优势与发展战略 - 公司能在三年间完成从追赶到领先的反超，核心原因之一是团队保持极快的发展节奏，并拥有差异化的全栈式技术方案，从硬件基础设施、自研TPU芯片到大规模训练和前沿研究环环相扣 [19] - 公司认为技术进步不一定体现在全新能力的诞生，更体现在“模型能赋能的新场景”上，从预训练到后训练的整个开发流程中都看到了全方位的积极进展 [20] - 此次模型被视为公司迈向通用人工智能的下一步，目前这一步比同类竞争对手更快 [21]