刚刚,Gemini 3再次大更新,全球免费享Pro级智商,奥特曼又要失眠了
36氪·2025-12-18 09:26

文章核心观点 - 谷歌发布Gemini 3 Flash模型,其核心策略是以显著低于前代及竞品的价格,提供接近旗舰模型的性能,旨在通过“又快又便宜”的优势抢占市场,并对OpenAI和Anthropic构成直接竞争压力 [4][5][6][10] - 该模型试图打破“质量-成本-速度”难以兼顾的传统认知,通过工程优化成为“六边形战士”,并已全面集成至谷歌的消费级与企业级产品中,利用其庞大的用户基础推广AI服务 [17][41][47][48] 产品发布与市场定位 - Gemini 3 Flash正式发布,官方宣称其速度比Gemini 2.5 Pro快3倍,价格仅为Gemini 3 Pro的四分之一 [5][19] - 谷歌产品线现提供三种模型:Gemini 3 Flash (Fast) 主打快速响应;Gemini 3 Flash (Thinking) 具备轻量化推理能力;Gemini 3 Pro 仍是处理高难度任务的首选 [12][13][14] - 发布时机紧随Gemini 3 Pro与Deep Think之后,旨在不给竞争对手喘息机会,加剧行业竞争 [10][11] 性能表现与基准测试 - 在多项基准测试中,Gemini 3 Flash表现接近甚至超越前代旗舰及部分竞品:在GPQA Diamond博士级推理测试中得分为90.4%,在Humanity's Last Exam测试中得分为33.7% [15] - 在MMMU Pro多模态理解与推理测试中,Gemini 3 Flash得分81.2%,与自家Gemini 3 Pro的81.0%相当,达到业界先进水平 [16] - 在SWE-bench Verified编码测试中得分为78.0%,不仅高于Gemini 2.5系列,甚至略超Gemini 3 Pro的76.2% [17][24] - 该模型具备自适应推理能力,能根据任务复杂度灵活调整“思考”时间,即使在最低“思考等级”下,其表现也常超过前代模型的“高思考等级” [21] 定价策略与成本优势 - 定价极具竞争力:输入成本为每百万Token 0.5美元,输出成本为每百万Token 3美元 [17][44] - 相比前代Gemini 2.5 Pro,其Token消耗减少30%,速度快3倍,价格大幅降低 [19] - 若使用上下文缓存,重复Token的成本可再节省90%;使用Batch API异步处理可再节省50%,并提升调用上限 [45] 技术特点与应用场景 - 该模型为推理型模型,强调多模态能力,能快速处理视觉、音频等输入,将“看见、听见、理解”串联,适合需要即时反馈的交互场景 [24] - 官方展示的应用场景包括:实时辅助游戏解谜、生成UI加载动画并进行A/B测试、结合上下文为图片生成交互式注释等,共同特点是强调实时性与迭代效率 [26][27][29] - 具备代码执行能力,使其不仅能理解图片内容,还能在工具链支持下对图片进行处理与操作 [24] 实际体验与性能局限 - 实际体验中,其响应速度极快,但在处理复杂任务时,生成效果(如视觉细节、交互精致度)明显逊于Gemini 3 Pro [9][31] - 在复刻macOS界面任务中,出现底部Dock栏图标缺失,交互细节精致度不足 [33] - 在设计“复古拟物风相机应用”和“星球信号”网页时,视觉呈现与预期目标有较大差距,整体效果略显粗糙 [34][36] - 在复杂推理、长链路任务及对稳定性要求高的场景中,其短板会更为明显 [46] 生态整合与战略布局 - 谷歌将Gemini 3 Flash集成至其“全家桶”产品中,包括Gemini应用、搜索AI模式、Vertex AI、Google AI Studio等,作为默认底座 [41] - 该模型已被塞进搜索的AI模式(逐步全球开放),能更好理解复杂问题细节,抓取实时信息,输出视觉清晰、有条理的综合答案 [38][39] - 全球用户可免费体验,企业用户可通过Vertex AI和Gemini Enterprise调用 [42] - 谷歌凭借搜索、YouTube、Gmail、Google Maps等每日数十亿用户的产品,将AI能力无感嵌入高频应用,构建用户依赖,这是其区别于纯API公司的核心优势 [47][48][50]