模型核心能力升级 - 具备生成界面能力,可从回答问题跃迁至构建动态应用,例如用户查询梵高生平时能即时生成包含图片和时间线的交互式页面,涉及复杂计算时能直接生成定制化房贷计算器 [1][8] - 推理能力显著增强,能在复杂任务中维持10到15步连贯逻辑,可靠性大幅提升,前代模型常在第5、6步推理时丢失思路 [2][11] - 视觉智能取得突破,在ScreenSpot-Pro测试中取得72.7%高分,几乎是GPT-5.1性能的20倍,使AI Agent能区分按钮、菜单、文本和上下文,为高级自动化操作电脑奠定基础 [3] - 编码能力大幅提升,在WebDev Arena排行榜上获得1487 Elo高分,配合Vibe Coding能力可根据自然语言生成功能完整且设计美观的代码 [4][11] 关键性能基准测试表现 - 在跨学科博士级难题集"Humanity's Last Exam"中,Gemini 3 Pro得分从Gemini 2.5 Pro的21.6%大幅上升至37.5%,远超GPT-5.1的26.5% [2][4][9] - 在SimpleQA Verified测试中准确率达到72.1%,相较GPT-5.1和Claude Sonnet 4.5提升超1倍,大幅减少模型幻觉现象 [2][4] - 在数学竞赛AIME 2025中得分达95.0%,使用代码执行后可达100% [4] - 在挑战性数学问题MathArena Apex上得分从2.5 Pro的0.5%跃升至23.4% [4] - 在多模态理解MMMU-Pro测试中得分81.0%,高于GPT-5.1的76.0% [4] - 在长上下文性能MRCR v2测试中,128k平均得分77.0%,1M点wise得分26.3% [4] 战略定位与产品整合 - 公司战略定位极为克制,将Gemini定义为提升生产力的超级工具,拒绝情感陪伴领域,内部考核指标是帮助用户完成的任务数量 [5][14] - 模型深度整合谷歌生态,可接入用户邮箱自动归类并拟定回复,从单纯助手进化为能够独立工作的智能同事 [5][10][13] - 模型将通过Gemini App和谷歌搜索AI Mode向用户提供,美国大学生将获一年免费高级版访问权限,关键词是"Learn Anything",定位为终极个性化教育工具 [10] - 公司强调在规模化分发和垂直整合上拥有优势,正将Gemini注入Maps、YouTube、Android等数十亿用户产品,形成无法逾越的护城河 [16] 行业竞争与未来展望 - 公司认为当前处于史上最激烈竞争环境,但对其进步速度非常满意,并强调在研究上从未失去领先地位,产品落地已跟上 [16] - 关于规模定律与回报递减,公司认为性能提升的边际效益虽非指数级爆炸式增长,但带来的实用性和可靠性提升仍远高于边际成本,规模定律依然有效 [17] - 对于AI泡沫论,公司认为某些领域存在估值与实际收入不成比例的泡沫,但公司同时拥有短期变现与长期万亿级新赛道,无论市场繁荣或收缩都将胜出 [18]
Gemini 3负责人最新访谈:不做情感陪伴,只做最强生产力工具