Workflow
生成式 UI(Generative UI)
icon
搜索文档
一文读懂谷歌最强大模型Gemini 3:下半年最大惊喜,谷歌王朝回归
36氪· 2025-11-19 03:10
行业格局与产品定位 - Gemini 3的发布打破了2025年下半年AI领域的阶段性平淡,标志着谷歌在模型能力上实现了对OpenAI的超越,是谷歌第一款真正意义上让OpenAI黯然失色的模型 [1][5] - 公司不满足于单一维度领先,而是在模型能力、开发者工具、用户体验、搜索集成、多语言覆盖等所有战线上同时发力,展现出用AI重新定义整个Google生态的平台级野心 [6] - 此次发布被视作谷歌的“王者归来”,通过实实在在的数据和立即可用的产品,证明了Scaling Law依然是通往AGI道路上的指引灯塔 [42] 核心模型性能表现 - 在衡量基础思考能力的Humanity‘s Last Exam测试中,Gemini 3 Pro无工具条件下得分37.5%,带搜索和代码执行工具条件下得分45.8%,显著高于Gemini 2.5 Pro的21.6%和Claude Sonnet 4.5的13.7% [8] - 在被誉为AI界图灵测试的ARC-AGI-2视觉推理测试中,Gemini 3 Pro取得31.1%的分数,远超GPT-5.1的17.6%和Gemini 2.5 Pro的4.9%,展现出接近人类的流体智力 [9] - 在新的MathArena Apex竞赛级数学测试中,Gemini 3 Pro获得23.4%的成绩,而Gemini 2.5 Pro、Claude Sonnet 4.5和GPT-5.1的得分分别仅为0.5%、1.6%和1.0% [11] - 在多模态理解方面,MMMU-Pro得分81.0%,CharXiv Reasoning得分81.4%,ScreenSpot-Pro截图理解测试得分72.7%,是Claude Sonnet 4.5的两倍,GPT-5.1的二十倍 [13] - 在长上下文能力上,MRCR v2 benchmark中128k上下文的平均得分为77.0%,1M上下文的逐点得分为26.3%,均远超竞争对手 [21] 编码与智能体能力 - 在LiveCodeBench Pro竞争性编程测试中,Gemini 3的Elo评分为2,439分,比第二名高出200多分,而在测试智能体工具使用能力的t2-bench中取得85.4%的高分,远超Gemini 2.5 Pro的54.9% [15][16] - 在终端环境编码测试Terminal-Bench 2.0中取得54.2%的成绩,比第二名高出11个百分点,在实战编码竞技场Design Arena的五个代码赛区中的四个占据榜首 [16][18] - 在衡量长时间跨度和多步骤任务能力的Vending-Bench 2中,Gemini 3实现$5,478.16的平均净值,远超GPT-5.1的$1,473.43和Gemini 2.5 Pro的$573.64 [22] - 模型成为首个在模型界面融合通用智能体能力的产品,工具使用能力相比2.5 Pro提升了30%,能更准确地选择正确工具并理解何时需要组合多个工具完成复杂任务 [34] 前端与用户体验创新 - 模型展现出理解审美的能力,能生成响应式设计自然流畅、色彩搭配符合现代审美、动画效果恰到好处的代码,部分源于其训练数据包含大量图像、视频和网页数据 [29] - 公司推出“生成式UI”概念,AI可根据每个请求动态生成完全定制的用户界面,例如为“RNA聚合酶是如何工作的?”问题生成直观可点击的交互式工具 [29] - 模型能根据用户意图、使用场景、目标受众改变界面设计,为5岁孩子和成年人讲解微生物时会采用完全不同的界面设计、交互模式和内容深度 [30] - 在多轮对话中,模型能理解用户的审美偏好和编码风格,并自动在后续生成中调整,例如减少极简主义用户的装饰性元素或增加喜欢动画用户的交互效果复杂度 [31] 技术架构与规模定律 - 模型采用稀疏混合专家架构,表明其并非Gemini 2.5的微调而是全新架构,团队通过改进预训练和后训练实现了巨大跃升,2.5到3.0之间的差距是所见最大之一 [37][38] - 公司在多模态能力、智能体自动化强化方法以及持续学习方面取得进展,例如Veo 3、Genie 3、AI Co-scientist、SIMA 2以及DiscoRL论文,形成了从算法到感知再到执行的性能乘数效应 [38][39] - 尽管Gemini 3 Pro的API定价为每百万输入/输出Token $2/$12,是目前运行成本最高的模型之一,但其token效率更高,在相同任务上用的tokens更少,使得实际使用成本增加只有12%左右 [40] 市场影响与行业趋势 - 根据Artificial Analysis的最终排名,Gemini 3 Pro以显著优势位居第一,比GPT-5.1高出3分,这是Google第一次在其推出的语言模型中以绝对优势占据领袖地位 [24] - 行业观察指出,聊天机器人的时代正在向数字同事的时代转变,human in the loop的角色正从“修复AI错误的人”演变为“指挥AI工作的人”,这可能是自ChatGPT发布以来最大的变化 [42]