软件工程基准测试

搜索文档
GPT-5编程测评大反转,表面不及格,实际63.1%的任务没交卷,全算上成绩比Claude高一倍
36氪· 2025-09-22 11:39
行业基准测试 - Scale AI推出全新软件工程基准SWE-BENCH PRO 旨在通过更严格的测试标准评估大语言模型在实际开发场景中的能力[4] - 新基准包含1865个问题 覆盖商业应用 B2B服务和开发者工具的多元化代码库 包括731个公共集问题 276个商业集问题和858个保留集问题[7] - 测试设计采用human in the loop模式 每个问题都经过人工增强 包含问题陈述 需求说明及接口信息 并在容器化环境中进行评估[8][9][10] 模型性能表现 - 在SWE-BENCH PRO测试中 主流大语言模型解决率普遍低于25% 其中GPT-5以23.3%的解决率位列第一 Claude Opus 4.1以22.7%居次 Gemini 2.5 Pro Preview以13.5%排名第三[1][13] - 若仅统计已提交任务 GPT-5准确率达63% 显著高于Claude Opus 4.1的31% 显示其在擅长领域的稳定性[3] - 在商业集测试中 最优模型得分仍低于20% 表明当前模型处理真实商业场景问题的能力有限[13] 技术细节分析 - 测试结果显示编程语言难度影响显著 Go和Python语言上部分模型解决率超过30% 而JavaScript和TypeScript表现波动较大 介于0%至30%之间[15] - 不同代码库解决率差异明显 部分代码库解决率低于10% 另一些超过50%[15] - 模型失败模式各异 Claude Opus 4.1主要因语义理解不足失败(错误解答35.9% 语法错误24.2%) GPT-5未回答率高达63.1% Claude Sonnet 4存在35.6%的上下文溢出问题[16][17] 测试方法论 - SWE-BENCH PRO针对SWE-Bench-Verified的缺陷进行改进 使用全新题目避免数据污染 并排除1-10行代码的琐碎编辑 专注于需要大量多文件修改的复杂任务[4][7] - 测试通过fail2pass和pass2pass双验证机制确保质量 fail2pass测试经过人工筛选 偶尔失败的测试会运行三次以保证结果稳定性[10] - 基准采用分集策略 公共集在HuggingFace发布 商业集和保留集保持私有 商业集测试结果公开 保留集用于验证模型过拟合情况[7]