Workflow
GPT-5大提升,o3对抗赛夺冠,但OpenAI越来越难让人惊艳了?
观察者网·2025-08-08 10:24

产品性能表现 - ChatGPT-5在数学能力测试AIME 2025中 GPT-5 Pro在调用工具情况下获得满分 不调用工具时获得96.7分 标准版获得94.65分 显著高于o3的88.9分 [2] - 编程能力测试SWE-bench Verified中 ChatGPT-5获得74.9分 高于o3的69.1分和4o的30.8分 [4] - 博士水平科学知识测试GPQA Diamond中 GPT-5 Pro在不调用工具情况下获得88.4分 创造新纪录 [7] - 多模态测试中获得84.2分 较o3的82.9分有小幅提升 [10] - 高难度Humanity's Last Exam测试中 GPT-5 Pro和标准版分别获得30.7分和24.8分 较o3的14.7分大幅提升 [13] - 在大模型竞技场LM Arena中横扫所有单项第一名 [16] - 推理模式幻觉数量比o3减少六倍 token输出成本降低50-80% [16] 技术局限性 - 在解简单方程时出现计算错误 未能解决小数比大小问题 [18] - 发布会PPT柱状图高度出现明显错误 [20] - 在机翼升力原理回答中引用错误观点 [22] - 国际象棋对抗赛中o3虽以4-0获胜 但比赛过程中仍出现低级失误 [27] - 通用大模型在棋类对局中后期出现棋力下降 说明推理能力存在缺陷 [25][30] 行业发展现状 - 大模型能力进步幅度难以带来惊艳感 现有算法范式下可能接近瓶颈 [1] - 国际象棋比赛考验的是通用推理能力而非专门训练结果 体现模型泛化性 [29] - 现有Next Token Predicting范式下模型仍会犯人类式低级错误 距离AGI仍有差距 [30] - OpenAI重点展示垂直场景应用能力 包括生成小游戏和健康问答 强调人机协作 [31]