小杯Gemini战胜GPT5.2，1分钟模拟Windows操作系统

产品定位与核心优势 - 谷歌新推出的Gemini 3 Flash模型定位为“Pro级智能+Flash级速度+更低价格”，旨在实现性能与效率的兼顾[2] - 该模型是谷歌迄今为止在智能体工作流程方面最出色的模型，继承了Gemini 3 Pro的复杂推理、多模态视觉理解、Vibe编程及处理智能体任务的能力，但响应速度更快[15][16] 性能表现与基准测试 - 在速度方面，Gemini 3 Flash几乎是Gemini 2.5 Pro的3倍，且平均使用的token数量少30%[3][33] - 在多项专业基准测试中，其性能显著超越前代模型，并在部分测试中略胜Gemini 3 Pro：在MMMU Pro（多模态理解与推理）测试中得分为81.2%，高于Gemini 3 Pro的81.0%；在ARC-AGI-2（视觉推理谜题）测试中得分为33.6%，高于Gemini 3 Pro的31.1%[31][32] - 在复杂图表信息合成（CharXiv Reasoning）测试中得分为80.3%，接近Gemini 3 Pro的81.4%[32] - 在代理编码任务（SWE-bench Verified）测试中得分为78.0%，高于Gemini 3 Pro的76.2%[32] - 在长上下文性能（MRCR v2）测试的12Bk平均任务中得分为67.2%[32] 多模态与视觉能力展示 - 在具体测试中展现出优秀的视觉理解与细节识别能力，例如能成功识破“数手指”图片陷阱并给出正确答案“6根”，而GPT-5.2则错误回答“5根”[4] - 在图像生成任务中，例如生成“骑车的鹈鹕”，其表现被评估为优于Gemini 2.5 Pro和Gemini 3 Pro[6] - 在人物识别测试中，能正确识别“谷歌宣传委员”Logan Kilpatrick，而Gemini 3 Pro则将其误认为前负责人Jack Krawczyk[8][9] 实际应用与功能演示 - 能够快速创建功能完整、美观的Windows操作系统核心环节，用时不到一分钟[17] - 能够根据提示词生成游戏代码，例如尝试创建《侠盗猎车手6》游戏，并能生成具有交互效果的天气卡片[20][24][25] - 能够为自己生成一个功能性的介绍网站，其中“立即体验”按钮可有效跳转至官网[26][28] 定价策略与市场定位 - 定价具有竞争力，输入价格为每百万token 0.5美元，输出价格为每百万token 3美元[35] - 虽然输入价格略高于Gemini 2.5 Flash的0.3美元/百万token，但凭借其显著提升的性能和速度，性价比依然突出[36] - 其价格远低于Gemini 2.5 Pro（输入1.25美元/百万token，输出10美元/百万token）和Gemini 3 Pro（输入2.00美元/百万token，输出18.00美元/百万token）[32][37] 技术特性与发布情况 - 模型提供四档思考模式：minimal、low、medium、high，以适应不同任务对计算资源与响应深度的需求[38] - 该模型已面向全球所有用户推出，普通用户可通过Gemini应用及谷歌搜索的AI模式使用，专业开发者可通过Google AI Studio、Gemini CLI及Google Antigravity平台调用API，企业客户可通过Vertex AI和Gemini Enterprise平台获取服务[12][13]