谷歌Gemini 3把GPT-5.1打成计量单位！马斯克奥特曼都服了

模型性能突破 - 谷歌Gemini 3 Pro在几乎所有基准测试中超越GPT-5.1和Claude4.5，包括专为AGI准备的测试[1] - 新模型在Humanity's Last Exam测试中，无工具条件下得分37.5%，使用搜索和代码执行后提升至45.8%，显著高于GPT-5.1的26.5%[2] - 在视觉推理ARC-AGI-2测试中得分31.1%，远超Gemini 2.5 Pro的4.9%和GPT-5.1的17.6%[2] - 数学能力表现突出，AIME 2025测试无工具条件下得分95.0%，使用代码执行后达到满分100%[2] - 在极具挑战性的MathArena Apex数学竞赛问题测试中得分23.4%，而Gemini 2.5 Pro仅0.5%，GPT-5.1为1.0%[2] - 多模态理解能力显著提升，MMMU-Pro测试得分81.0%，高于GPT-5.1的76.0%[2] - 编程能力卓越，LiveCodeBench Pro测试Elo评分达到2,439，高于GPT-5.1的2,243和Gemini 2.5 Pro的1,775[2] 智能体与工具使用能力 - 终端编码任务Terminal-Bench 2.0测试得分54.2%，高于GPT-5.1的47.6%和Claude4.5的42.8%[2] - 智能体编码SWE-Bench Verified测试单次尝试通过率76.2%，与Claude4.5的77.2%和GPT-5.1的76.3%相当[2] - 工具使用τ2-bench测试得分85.4%，优于GPT-5.1的80.2%和Claude4.5的84.7%[2] - 长周期智能体任务Vending-Bench 2模拟管理自动售货机一年净收益达5,478.16美元，为所有模型中最高，远超GPT-5.1的1,473.43美元[2][10] 用户评价与市场地位 - 在大模型竞技场Text Arena中，Gemini 3 Pro以1501分排名第一，超越Grok-4.1-thinking的1484分[3] - 总投票数达4,553,123票，涵盖269个模型，Gemini 3 Pro获得3,089票[3] - 行业领袖奥特曼和马斯克先后公开点赞祝贺新模型发布[4] 实际应用演示 - 能够模拟Windows、Mac、Linux三大操作系统界面并实际运行设计出的程序[6] - 设计乐高编辑器时一次尝试即完成界面及所有编辑器功能[7] - 谷歌官方使用Gemini 3 Pro设计的游戏已发布在YouTube可直接游玩[9] - 在搜索场景中能组织即时查询信息生成可交互内容，而非简单提供链接[27] 技术演进路径 - Gemini 1代奠定多模态能力和超长上下文处理基础，成为首个能处理百万级tokens上下文的模型[16] - Gemini 2代增强信息记忆与决策规划能力，为智能体能力铺路[17] - Gemini 2.5代引入思考引擎，强化推理和链式思考能力[18] - Gemini 3代为集大成者，实现多模态、推理、智能体能力的深度融合进化[19] 产品特性改进 - 自然语言理解显著提升，能准确理解长提示词并给出简洁直接答案[20][21] - 多模态能力开挂，可无缝理解文本、图像、视频、音频和代码[23] - 具备深度视频分析能力，例如分析球赛视频后可总结打法、整理技巧并教学复现[24][25] 开发生态布局 - 同步推出Google Antigravity实验性智能体开发平台，构建"智能体优先"开发环境[29] - 平台演示1分钟内开发航班追踪程序的能力[30] - 智能体可访问编辑器、终端和浏览器，自主规划执行复杂软件任务[31] - 支持管理器视图同时控制多个智能体，提升工作自主性[32] - 平台支持Gemini系列及GPT-OSS、Claude等第三方模型，目前以公共预览版免费提供[33] 行业竞争态势 - AI编程工具成为下一个必争之地，Claude Code收入占Anthropic总营收约21%[34] - 谷歌以"整个公司的体量"发布Gemini 3系列，首次在发布当天即整合进搜索并上线独立APP[12] - 更强的Gemini 3 Deep Think深度思考模式正在开发中[13]