分析师：GPT-5.2看起来是又一次“质的飞跃”

核心观点 - OpenAI最新发布的GPT-5.2模型在关键思维能力测评中实现了质的飞跃特别是在抽象推理与泛化能力(ARC-AGI-2)上从GPT-5.1的17.6%跃升至52.9% 标志着大语言模型在长期短板上的巨大突破 [1] - GPT-5.2在衡量模型经济价值的重要指标GDPval上分数从38.8%飙升至70.9% 凸显了模型扩展能力与推理能力的同步突破 [1] - 尽管近期OpenAI因竞争对手Google的Gemini模型成功扩展而显得措手不及但此次数据表明其推理能力正在实现以往看似不可能的任务 [1] 模型性能对比 (GPT-5.2 vs. 前代及竞品) - 软件工程能力(SWE-Bench Pro): GPT-5.2达到55.6% 高于GPT-5.1的50.8% 也高于Anthropic Claude Opus 4.5的52.0%和Google Gemini 3 Pro的43.3% [2] - 科学问题能力(GPQA Diamond): GPT-5.2达到92.4% 高于GPT-5.1的88.1%和Anthropic的87.0% 略高于Google的91.9% [2] - 科学图表推理(CharXiv): GPT-5.2达到82.1% 显著高于GPT-5.1的67.0% 也略高于Google的81.4% [2] - 高等数学(FrontierMath): GPT-5.2在Tier 1-3达到40.3% 高于GPT-5.1的31.0%和Google的37.6% 在更难的Tier 4达到14.6% 高于GPT-5.1的12.5%但低于Google的18.8% [2] - 竞赛数学(AIME 2025): GPT-5.2达到100.0% 高于GPT-5.1的94.0% Anthropic的92.8%和Google的95.0% [2] - 抽象推理(ARC-AGI 1): GPT-5.2达到86.2% 高于GPT-5.1的72.8% Anthropic的80.0%和Google的75.0% [2] - 抽象推理与泛化(ARC-AGI 2): GPT-5.2达到52.9% 远高于GPT-5.1的17.6% 也高于Anthropic的37.6%和Google的31.1% [3] - 知识工作与经济价值(GDPval): GPT-5.2达到70.9% 远高于GPT-5.1的38.8% 也高于Anthropic的59.6%和Google的53.5% [3]