刚刚,谷歌祭出迄今最前沿模型 Gemini 3 Flash!编程能力上反超 Gemini 3 Pro,且更快更便宜
AI前线·2025-12-17 18:16

谷歌发布Gemini 3 Flash模型 - 谷歌发布其迄今最快AI模型Gemini 3 Flash,该模型专为速度而生,旨在帮助用户更快地学习、构建和规划[2][3][4] - 模型发布标志着谷歌在大模型竞赛进入“效率与规模并重”新阶段的关键落子,旨在建立更具性价比的企业级应用和开发者生态护城河[6][7] - 新模型从发布日起即面向全球数百万用户推出[8] 模型性能与基准测试 - 在博士级别推理基准测试GPQA Diamond中得分90.4%,在Humanity‘s Last Exam(不使用工具)中得分33.7%,展现出前沿性能,足以媲美规模更大的前沿模型[8] - 在MMMU Pro测试中取得81.2%的成绩,与Gemini 3 Pro性能相当[12] - 在编程代理能力基准测试SWE-bench Verified中得分高达78%,超越了Gemini 2.5系列甚至Gemini 3 Pro[19] - 在多项基准测试中显著超越了前代最佳模型Gemini 2.5 Pro[8] 定价与成本效率 - Gemini 3 Flash定价为每百万输入token 0.50美元,每百万输出token 3.00美元[13] - 相比前代Gemini 2.5 Flash(输入0.30美元/百万token,输出2.50美元/百万token)略贵,但性能优于Gemini 2.5 Pro且速度是其三倍[15] - 在处理思维任务时,平均使用的token数量比Gemini 2.5 Pro少30%,有助于用户节省总体token消耗[14][15] - 谷歌将Flash系列定位为“主力机型”,其更低的成本使其更适合承担大规模、批量化的任务处理需求,以降低企业使用门槛和整体成本[28] 技术特点与应用场景 - 模型设计目标是突破质量、成本和速度之间的帕累托极限,能够灵活调整思考时间以实现极高效率[13][16] - 拥有极快的速度,基于Artificial Analysis基准测试,速度比Gemini 2.5 Pro提升3倍[15] - 具备强大的多模态推理、工具使用和视觉问答能力,适合复杂的视频分析、数据提取等应用[22] - 能够实现近乎实时的AI辅助,例如在手部追踪游戏中提供多模态推理,或近乎实时地构建和A/B测试新的加载旋转器设计[23][24] - 可作为搜索中AI模式的默认模型,有效解析用户查询,提供结合实时信息的周全答案和具体建议,速度堪比搜索[27] 行业竞争与市场影响 - 谷歌正与OpenAI展开围绕新品发布节奏和模型性能的正面竞争[30] - 有报道称,随着谷歌在消费者市场份额上升,ChatGPT整体访问量出现下滑,促使OpenAI内部发出“红色警报”备忘录并接连发布新品[30] - 自Gemini 3发布以来,谷歌在其API上的处理规模迅速放大,目前每日处理的token数量已超过1万亿个[29] - 行业处于模型快速演进、相互竞争、不断突破性能边界的状态,密集的新模型发布正在推动整个行业加速前进[31] 市场初步反馈 - 部分开发者与技术爱好者认为Gemini 3 Flash在特定应用(如Stagehand Agent)上的准确度几乎与Gemini 3 Pro不相上下,但价格更低、速度更快[34][35] - 有用户感叹其能力之强,称“从没见过能力这么强的轻量级模型”[37] - 也有观点指出基准测试成绩不能完全代表真实复杂场景中的表现,并对“刷基准分数”的做法表示怀疑[38] - 有观点认为谷歌最近的发布彰显了其行业领头羊地位[38]