Workflow
缩放定律(Scaling laws)
icon
搜索文档
新模型“屠榜” 对话谷歌团队:AI“新旗手”如何诞生
第一财经· 2025-11-19 04:41
产品发布与市场定位 - 谷歌正式发布Gemini 3,定位为一次重大升级而非小修小补,旨在开启“智慧新纪元”并实现全面领先 [1] - 公司态度高调,官方博客多次强调“最佳”和“最先进”,CEO桑达尔·皮查伊在社交媒体上连发8条帖子介绍产品 [1] - 新模型被定义为能将“任何想法变为现实”,其强项在于处理多步骤复杂任务 [8][14] 性能表现与基准测试 - Gemini 3 Pro在几乎所有主流基准测试中实现全面领先,业内预言未来六个月内很难有公司能超越此成绩 [1][6] - 在“人类最后一次考试”中,Gemini 3 Pro在不使用工具的情况下得分为37.5%,显著高于GPT-5.1的26.5% [7][8] - 在GPQA Diamond测试中得分达91.9%,高于GPT-5.1的88.1% [7][8] - 在多模态理解测试MMMU-Pro和Video-MMMU中分别取得81.0%和87.6%的成绩,刷新纪录 [7][8] - 在数学竞赛AIME 2025测试中,不使用工具时得分95.0%,使用代码执行时达到100% [7] - 在代理任务Vending-Bench 2中,平均净值达5,478.16美元,远超Claude Sonnet 4.5的3,838.74美元和GPT-5.1的1,473.43美元 [7] 实际应用与用户体验 - 用户实测反馈积极,例如在生成高难度光影质感海报和复刻Mac OS网页等任务上表现超出预期,进步速度惊人 [9] - 产品团队提及的“顿悟时刻”包括其出色的代码生成能力,能根据简单提示生成各类游戏和3D可视化内容 [12] - 智能体模式已应用于实际场景,如帮助谷歌高管整理每日50多封邮件,以及筛选并购买演唱会门票 [12][13] 商业化与生态整合 - 发布首日即将Gemini 3整合进谷歌搜索,为其带来强推理能力并解锁新的生成式UI体验,例如可交互的物理学三体问题模拟界面 [15] - 推出全新的“类IDE”AI编程产品Antigravity,旨在让智能体代表用户自主规划和执行复杂的端到端软件任务 [18] - 官方公布Gemini月活跃用户已超过6.5亿,超过1300万名开发者基于其构建应用,搜索中的AI概览功能月用户超20亿 [20] 技术优势与行业影响 - 公司认为其从追赶到领先的反超得益于差异化的全栈式技术方案,涵盖从硬件(如TPU芯片)、计算集群到前沿研究的各个环节 [4][21] - 公司认为技术进步不仅体现在新能力的诞生,更体现在“模型能赋能的新场景”上,AI在日常工作中的影响力正日益扩大 [4][22][23] - 此次发布被市场视为可能改写AI竞争格局,使公司有机会从追赶者变为领先者,尤其对比被指“噱头大于实际”的OpenAI GPT-5 [19] - 发布引发资本市场积极反应,Loop Capital将谷歌母公司评级上调至“买入”,目标股价调高至320美元,公司市值曾突破3.5万亿美元创历史新高 [20]