Workflow
抽象推理能力
icon
搜索文档
GPT-5.2性能爆表,但红色警报没有解除
36氪· 2025-12-12 01:41
文章核心观点 - OpenAI在发布红色警报后推出GPT-5.2,其在多项性能基准上较前代及竞争对手产品有显著提升,尤其是在数学推理和专业工作任务方面 [1] - 尽管技术能力领先,但OpenAI仍面临市场祛魅和竞争压力,其并未在所有评估维度上取得领先,例如在NYT Connections文字游戏测试中落后于竞争对手 [1][15][18] - OpenAI采取了与行业降价趋势相反的高价策略,试图将GPT定位为高端“奢侈品”,这反映了其商业策略从担心落后转向担心平庸,并试图建立品牌护城河 [23][24] 技术性能表现 - **数学与推理能力**:GPT-5.2 Thinking在AIME 2025数学竞赛中获得100%满分,在FrontierMath测试中解决了40.3%的专家级数学难题 [2][5] - **专业工作任务**:在OpenAI新推出的GDPval基准测试中,GPT-5.2 Thinking在涵盖44种职业的知识工作任务上,有70.9%的情况下击败或打平了顶尖行业专家,完成任务的速度是人类专家的11倍以上,成本却不到1% [5] - **软件工程能力**:GPT-5.2 Thinking在SWE-Bench Pro上达到55.6%的准确率,在SWE-bench Verified上达到80% [5] - **长文档理解**:在OpenAI的MRCRv2测试中,GPT-5.2成为首个在256k token长度下,针对4-needle变体任务达到近乎100%准确率的模型 [6] - **视觉理解**:GPT-5.2在图表推理和软件界面理解任务上的错误率几乎减半,对图像中物体空间位置的把握更准确 [9] - **抽象推理与效率**:GPT-5.2 Pro在ARC-AGI-1验证集上准确率达到90.5%,成为首个突破90%门槛的模型,同时实现了约390倍的效率改进,将单任务成本从约4500美元降至11.64美元 [11][14] - **横向性能对比**:根据公布的基准测试数据,GPT-5.2在多项测试中领先于GPT-5.1、Anthropic Claude及Google Gemini [3][4] 性能短板与竞争格局 - **特定测试落后**:在GitHub开源基准测试NYT Connections(包含759个谜题)中,GPT-5.2在高推理模式下的准确率为77.9%,排名第11位,落后于排名第一的Google Gemini 3 Pro Preview(准确率96.8%)近20个百分点 [15][17] - **测试反映深层能力**:NYT Connections测试模型对语言文化背景、词语隐含关联及多维度分类推理的能力,这种能力在信息检索、内容推荐等实际应用中同样重要 [17][18] - **竞争持续存在**:测试结果表明,竞争对手在语言理解的某些维度上具有独到之处,xAI的Grok系列在特定任务上也展现出竞争力,模型之间的差距是实质性的 [18] 商业策略与定价 - **定价策略**:GPT-5.2 API定价为每百万输入token 1.75美元,每百万输出token 14美元,较前代GPT-5.1分别上涨40%;GPT-5.2 Pro定价为每百万输入token 21美元,每百万输出token 168美元 [20][21][22] - **与竞争对手对比**:当竞争对手采取降价策略时,OpenAI反其道而行之实行涨价。例如,Google Gemini 3 Pro核心型号定价为输入每百万token 2-4美元,输出每百万token 12-18美元;Anthropic Claude Opus 4.5定价大幅下调至输入每百万token 5美元、输出每百万token 25美元 [22][23] - **高端定位**:OpenAI通过高价策略试图将GPT打造成满足最高端智力需求的“奢侈品”,其商业逻辑侧重于稀缺性和极致质量,而非参与价格战 [23][24] - **策略风险**:高价策略意味着公司失去了“差不多就行”的容错空间,如果无法在实际体验中提供碾压式的优越感,用户可能迅速流失 [24]