GPT-5大提升，o3对抗赛夺冠，但OpenAI越来越难让人惊艳了？

产品性能表现 - ChatGPT-5在数学能力测试AIME 2025中 GPT-5 Pro在调用工具情况下获得满分不调用工具时获得96.7分标准版获得94.65分显著高于o3的88.9分 [2] - 编程能力测试SWE-bench Verified中 ChatGPT-5获得74.9分高于o3的69.1分和4o的30.8分 [4] - 博士水平科学知识测试GPQA Diamond中 GPT-5 Pro在不调用工具情况下获得88.4分创造新纪录 [7] - 多模态测试中获得84.2分较o3的82.9分有小幅提升 [10] - 高难度Humanity's Last Exam测试中 GPT-5 Pro和标准版分别获得30.7分和24.8分较o3的14.7分大幅提升 [13] - 在大模型竞技场LM Arena中横扫所有单项第一名 [16] - 推理模式幻觉数量比o3减少六倍 token输出成本降低50-80% [16] 技术局限性 - 在解简单方程时出现计算错误未能解决小数比大小问题 [18] - 发布会PPT柱状图高度出现明显错误 [20] - 在机翼升力原理回答中引用错误观点 [22] - 国际象棋对抗赛中o3虽以4-0获胜但比赛过程中仍出现低级失误 [27] - 通用大模型在棋类对局中后期出现棋力下降说明推理能力存在缺陷 [25][30] 行业发展现状 - 大模型能力进步幅度难以带来惊艳感现有算法范式下可能接近瓶颈 [1] - 国际象棋比赛考验的是通用推理能力而非专门训练结果体现模型泛化性 [29] - 现有Next Token Predicting范式下模型仍会犯人类式低级错误距离AGI仍有差距 [30] - OpenAI重点展示垂直场景应用能力包括生成小游戏和健康问答强调人机协作 [31]