GPT-5.2获封“最强打工人”,谷歌同日以Gemini“性价比”系列应战
钛媒体APP·2025-12-12 08:22

行业竞争格局 - OpenAI面临空前竞争压力 竞争对手包括DeepSeek、Grok、Claude 特别是谷歌Gemini 3表现突出[2] - 谷歌在OpenAI发布GPT-5.2前约一小时抢先发布Gemini Deep Research 试图抢占市场关注[10] - 大模型竞争已扩展至AI芯片领域 英伟达与谷歌TPU的竞争同样激烈[12][13] OpenAI最新产品GPT-5.2表现 - GPT-5.2发布Instant、Thinking、Pro三款模型 基准测试全面反超竞争对手[4] - GPT-5.2 Thinking在GPQA Diamond评估得分达92.4% 高于GPT-5.1 Thinking的88.1%和Gemini 3 PRO的91.9%[4] - 在无需工具情况下 GPT-5.2在美国数学邀请赛AIME2025中获得满分[4] - 在GDPval专业技能评估中 GPT-5.2 Thinking得分70.9% 较GPT-5.1 Thinking高出32.1% 领先Gemini 3 PRO达17.4% 领先Claude Opus 4.5达11.3%[5] - 具体基准测试对比显示 GPT-5.2在SWE-Bench、CharXiv、FrontierMath、ARC-AGI等多个评估中领先[6] - 新模型在编写代码、制作PPT、图像感知、理解长上下文、使用工具、处理复杂多步骤项目方面表现出色 错误率大幅减少[7] - 公司称GPT-5.2 Thinking是“目前最能够胜任现实中各类专业用途的模型”[4] 产品定价与性能问题 - GPT-5.2输入输出价格较前代上涨40% 输入价格21美元 输出价格高达168美元[7] - 一些用户反映GPT-5.2 Thinking和Pro的应答时间较慢 比前代产品更慢[8] - 普通即时版GPT-5.2仍会在一些常识问题上犯错[9] 竞争对手谷歌的动向 - 谷歌发布深度研究智能体Gemini Deep Research 基于Gemini 3 PRO构建 减少“幻觉”[10] - 在人类终极大考HLE中 Gemini Deep Research得分46.4% 高于GPT-5.2 Thinking的45.5% 但低于GPT-5 Pro的50%[10] - 谷歌产品经理透露 新版智能体在与GPT-5 Pro表现相当时 成本仅为后者的十分之一左右[12] - 谷歌同步开源基准测试工具DeepSearchQA 包含覆盖17个领域的900项复杂任务[12] 公司未来计划与行业展望 - OpenAI CEO表示下周将继续带来“小圣诞礼物” ChatGPT“成人模式”预计明年一季度面世[9] - 有消息称OpenAI正加速开发全新模型“Garlic” 旨在重建绝对领先优势[12] - 英伟达指出 大部分大模型仍用上一代H系列芯片训练 用Blackwell芯片训练的大模型预计2026年上线 其优势届时才会显现[13] - 2025年末AI大模型与AI芯片竞争加剧 预计2026年战况将继续升级[13]