GPT-5.2部分基准测试分数超过谷歌但OpenAI“红色警报”尚未解除

行业竞争态势 - OpenAI在谷歌发布Gemini 3 Pro后迅速推出GPT-5.2，被视为对谷歌挑战的一次反击，以应对硅谷AI权力的重新分配[1] - 谷歌Gemini 3 Pro的发布曾对OpenAI的大模型霸主地位构成挑战，并在基准测试榜单中“屠榜”[1][2] - OpenAI CEO承认公司面临竞争对手快速进步带来的“氛围紧张”和“经济逆风”双重挑战[6] - 公司拉响“红色警报”是为了集中资源、明确优先级，并增加了更多与ChatGPT相关的资源，预计在明年1月前结束该状态[6] 产品发布与迭代 - OpenAI于12月11日推出GPT-5.2，包含Instant、Thinking和Pro三种模式，距离上一代GPT-5.1发布仅过去一个月[1] - 与强调“情绪价值”的GPT-5.1不同，GPT-5.2侧重于智能上的更新，并公布了基准测试分数[1] - GPT-5.2的Instant、Thinking和Pro模式已在ChatGPT中陆续推出，付费套餐用户可率先体验[6] - GPT-5.2并非应对竞争的唯一产品，公司CEO表示下周还将送出“小小的圣诞礼物”[6] 模型性能与基准测试 - 在知识型工作任务GDPval测试中，GPT-5.2 Thinking分数为70.9%，显著超过GPT-5.1的38.8%[2] - 在抽象推理ARC-AGI-2基准测试中，GPT-5.2 Thinking分数为52.9%，显著超过GPT-5.1的17.6%[2] - 在软件工程SWE-Bench Pro测试中，GPT-5.2 Thinking分数为55.6%，GPT-5.1为50.8%[2] - 在科学问题GPQA Diamond测试中，GPT-5.2 Thinking分数为92.4%，GPT-5.1为88.1%[2] - 在科学图表类问题CharXiv推理测试中，GPT-5.2 Thinking分数为88.7%，GPT-5.1为80.3%[2] - 在数学竞赛HMMT测试中，GPT-5.2 Thinking分数为99.4%，GPT-5.1为96.3%[2] - GPT-5.2在ARC-AGI-2和GPQA Diamond两项测试中的得分已超过谷歌Gemini 3 Pro（分别为31.1%和91.9%）[3] - 公司称GPT-5.2在众多基准测试中刷新了行业水平，在涵盖44个职业的GDPval测试中表现超过行业专家[2] 功能改进与应用 - 新模型在制作演示文稿、电子表格等方面的表现优于或与专业人士持平，生成的电子表格和幻灯片在复杂度和格式呈现上相比前一代有明显提升[3] - 用户需订阅付费套餐才能使用新的电子表格和演示文稿功能[3] - 长上下文能力使新模型能处理报告、合同、研究论文等文件[3] - 在编码任务中，GPT-5.2能更可靠地调试生产环境代码、以更少的人工干预完成修复交付[3] - 演示案例显示，只需一个提示，GPT-5.2就能生成可交互的海浪模拟器和节日贺卡生成器[4] - GPT-5.2 Thinking的幻觉率低于前一代，在一组去标识的查询中，错误回答的频率比GPT-5.1 Thinking减少了38%[4] - 新模型在图表推理和软件界面理解方面的错误率减少了大约一半[4] - 公司称GPT-5.2 Pro和GPT-5.2 Thinking是目前最有助于加快科研进展的模型[4]