模型编程能力评估

搜索文档
GPT-5编程成绩有猫腻!自删23道测试题,关键基准还是自己提的
量子位· 2025-08-12 04:35
GPT-5编程能力评估争议 - 文章核心观点为GPT-5的编程能力可能被高估,其官方测试结果因评估方法问题而缺乏参考价值[1][14][18] - OpenAI在SWE-bench Verified基准测试中自行省略了23个问题,仅使用477个问题进行评估,而非完整的500个问题集[2][4][5] - 若被省略的23个问题按零分计算,GPT-5的得分实际上比Claude Opus 4.1更低,因为两者差距仅为0.4%[6] 评估基准的选择与变更 - SWE-bench Verified是OpenAI为更准确评估模型编程能力而提出的SWE-bench子集,但公司后续又创建了仅包含477个问题的“子集的子集”[12][13][28] - OpenAI省略23个问题的理由是其内部基础设施无法运行这些问题的解决方案,此操作在GPT-4.1发布时也曾使用[9][10][20] - SWE-bench Verified子集的创建涉及93位资深程序员对1699个样本进行人工标注,最终筛选出500个经过验证的样本[32][33][37] 模型对比的公平性质疑 - 在对比中,OpenAI使用了具有最大思维努力的GPT-5与没有扩展思维、仅靠原始模型输出的Claude Opus 4.1进行比较,这种比较方式被认为缺乏参考意义[18] - Anthropic明确指出,其Claude 4系列模型在所有测试中均基于完整的500个问题集报告分数,而OpenAI模型的得分基于477道问题的子集[26][27] - 在原始的SWE-bench总榜单中,Claude 4 Opus以67.60%的解决率领先,GPT-5(中等推理)的解决率为65.00%[40][41]