核心观点 - OpenAI最新发布的GPT-5.2模型在关键思维能力测评中实现了质的飞跃 特别是在抽象推理与泛化能力(ARC-AGI-2)上从GPT-5.1的17.6%跃升至52.9% 标志着大语言模型在长期短板上的巨大突破 [1] - GPT-5.2在衡量模型经济价值的重要指标GDPval上 分数从38.8%飙升至70.9% 凸显了模型扩展能力与推理能力的同步突破 [1] - 尽管近期OpenAI因竞争对手Google的Gemini模型成功扩展而显得措手不及 但此次数据表明其推理能力正在实现以往看似不可能的任务 [1] 模型性能对比 (GPT-5.2 vs. 前代及竞品) - 软件工程能力(SWE-Bench Pro): GPT-5.2达到55.6% 高于GPT-5.1的50.8% 也高于Anthropic Claude Opus 4.5的52.0%和Google Gemini 3 Pro的43.3% [2] - 科学问题能力(GPQA Diamond): GPT-5.2达到92.4% 高于GPT-5.1的88.1%和Anthropic的87.0% 略高于Google的91.9% [2] - 科学图表推理(CharXiv): GPT-5.2达到82.1% 显著高于GPT-5.1的67.0% 也略高于Google的81.4% [2] - 高等数学(FrontierMath): GPT-5.2在Tier 1-3达到40.3% 高于GPT-5.1的31.0%和Google的37.6% 在更难的Tier 4达到14.6% 高于GPT-5.1的12.5%但低于Google的18.8% [2] - 竞赛数学(AIME 2025): GPT-5.2达到100.0% 高于GPT-5.1的94.0% Anthropic的92.8%和Google的95.0% [2] - 抽象推理(ARC-AGI 1): GPT-5.2达到86.2% 高于GPT-5.1的72.8% Anthropic的80.0%和Google的75.0% [2] - 抽象推理与泛化(ARC-AGI 2): GPT-5.2达到52.9% 远高于GPT-5.1的17.6% 也高于Anthropic的37.6%和Google的31.1% [3] - 知识工作与经济价值(GDPval): GPT-5.2达到70.9% 远高于GPT-5.1的38.8% 也高于Anthropic的59.6%和Google的53.5% [3]
分析师:GPT-5.2看起来是又一次“质的飞跃”
格隆汇·2025-12-12 03:51