Gemini 3 Flash 倒反天罡了:关键性能居然超过了 Pro
36氪·2025-12-18 00:54

产品发布与核心定位 - Google于12月17日正式发布Gemini 3 Flash模型,其定价仅为Claude Sonnet 4.5的1/5和GPT-5.2的1/4,但性能在多项基准测试中达到或超越旗舰模型,重新定义了“轻量模型”的定位 [1][7][16] - 该模型打破了以往轻量模型“快、便宜、但能力打折”的惯例,以轻量模型的价格提供了旗舰级的能力,实现了性能、成本与速度的最优权衡 [7][12][16] - 此次发布标志着Gemini 3产品家族阵容正式成型,形成了Gemini 3 Pro、Gemini 3 Deep Think和Gemini 3 Flash三个版本,覆盖从轻度用户到硬核开发者的完整需求谱系 [20] 性能与基准测试表现 - 在编码能力方面,Gemini 3 Flash在SWE-bench Verified基准上得分为78%,超过了Claude Sonnet 4.5的77.2%,并且是Flash系列首次超越同代Pro模型(76.2%)[4][9] - 在博士级科学推理基准GPQA Diamond上,Gemini 3 Flash得分为90.4%,大幅领先Claude Sonnet 4.5的83.4%,并接近GPT-5.2的92.4% [8][9] - 在多模态理解基准MMMU-Pro上,Gemini 3 Flash得分为81.2%,超过了GPT-5.2的79.5%,并大幅领先Claude Sonnet 4.5的68.0% [2][8][9] - 在Humanity‘s Last Exam基准(无工具)上,Gemini 3 Flash得分为33.7%,远超Claude Sonnet 4.5的13.7%,差距接近20个百分点 [8][9] 定价与成本优势 - Gemini 3 Flash的输入价格为每百万tokens 0.5美元,输出价格为每百万tokens 3.0美元,仅为自家Gemini 3 Pro价格的四分之一 [9][11] - 其价格约为竞品Claude Sonnet 4.5的1/5,GPT-5.2的1/4,但在多项关键指标上实现打平或领先,性价比显著 [1][10] - 公司为高频调用场景提供了配套成本优化方案,包括Context Caching功能(重复token使用达阈值可降90%成本)和Batch API(异步批量处理可再降50%成本)[19] 效率与速度 - 根据Artificial Analysis测试,Gemini 3 Flash的处理速度比Gemini 2.5 Pro快3倍,在处理日常任务时平均可节省30%的token消耗 [11] - 在多模态分析速度测试中,Resemble AI发现Gemini 3 Flash比Gemini 2.5 Pro快了4倍,能够在不拖慢工作流的情况下处理原始技术输出数据 [6] - 公司官方表示“速度和规模,不必以牺牲智能为代价”,此次发布的数据支撑了这一说法 [12] 市场影响与用户覆盖 - Gemini 3 Flash将直接集成到Gemini App中,替代原来的2.5 Flash成为新的默认模型,这意味着全球所有Gemini免费用户将自动升级至Gemini 3级别的体验 [13][18] - 在Google Search中,AI Mode的默认模型也将在全球范围内升级至Gemini 3 Flash,其强大的推理和多模态能力将提升处理复杂问题的精准度 [15] - Gemini App的月活跃用户已突破6.5亿,较上季度的4.5亿大幅增长,开发者数量达到1300万,API调用量同比增长3倍 [21] - 发布以来,Gemini API的日均处理量已突破1万亿tokens [6] 开发者与生态建设 - Gemini 3 Flash为开发者提供了一个在成本可控前提下,兼具高性能与高速度的新选项,特别适合需要多轮调用和高频迭代的Agent场景 [19] - 模型已在Google AI Studio、Gemini API、Gemini CLI、Android Studio、Vertex AI以及新的Agentic开发平台Google Antigravity等平台上线(预览版)[19][22] - 该模型使开发者能够以远低于竞品旗舰模型的成本,部署有能力处理复杂编码任务(如SWE-bench 78%得分)且对延迟敏感的实时应用 [19] 产品分工与适用场景 - Google为Gemini 3家族明确了新的分工:Gemini 3 Pro凭借Deep Think模式,在极限推理场景(如GPQA Diamond 91.9%得分)中保持优势,适合高难度数学和代码问题 [10][17] - Gemini 3 Flash则凭借其高性价比和速度,适合高频Agent任务和大多数日常场景,为普通用户和开发者提供了“又快又好还便宜”的选择 [10][17][20] - 在Gemini App中,用户可选择三种模式:Fast(由3 Flash驱动,秒回日常问题)、Thinking(由3 Flash驱动,激活深度思考处理复杂逻辑)、Pro(保留3 Pro处理高难度问题)[17]