基准测试 - 财报，业绩电话会，研报，新闻

基准测试

搜索文档

36氪· 2025-09-22 11:27

SWE-Bench Pro基准测试概述 - 新一代AI编程智能体评估基准SWE-Bench Pro正式发布，专为评估真实企业级工程任务而设计[5][13] - 基准包含1865个经人工验证与增强的问题，分为公开集（731个实例）、商业集（276个实例）和保留集（858个实例）[18][19] - 相较于前代SWE-Bench，Pro版本在任务难度、抗数据污染能力和逼近真实代码库三大方面实现突破[4][6] 基准测试的核心设计特点 - 采用强著佐权许可证（GPL）代码库构建公开集和保留集，并从真实初创企业获取专有代码构建商业集，以降低数据污染风险[18] - 任务复杂度显著提升，排除了1-10行代码的修改，参考解决方案平均涉及4.1个文件和107.4行代码，所有任务至少修改10行代码[21] - 引入三阶段人机协同验证流程，确保任务可解，同时澄清模糊信息并补充缺失上下文[24] 主要大型语言模型表现 - 在公开集测试中，GPT-5以23.3%的解决率排名第一，Claude Opus 4.1以22.7%的解决率位列第二，其他模型得分均低于15%[7][25][26] - 在更具挑战的商业集测试中，模型表现进一步下降，最佳模型Claude Opus 4.1的解决率仅为17.8%，GPT-5为14.9%[27][28] - 早期代际模型如GPT-4o和DeepSeek Qwen-3 32B表现明显落后，解决率分别为4.9%和3.4%[25][26] 模型性能影响因素分析 - 模型性能因编程语言而异，在Go和Python任务中解决率较高（部分超过30%），但在JavaScript和TypeScript任务中波动较大（0%至超过30%）[30] - 代码仓库的复杂度、文档质量及问题类型显著影响模型表现，部分仓库所有模型解决率均低于10%，而有些仓库能达到50%[32] - 故障分析显示，不同模型的失败原因各异：Claude Opus 4.1主要问题在语义理解（错误解决方案占35.9%），而GPT-5则更多暴露工具使用差异[36] 行业意义与影响 - SWE-Bench Pro的推出解决了现有基准（如SWE-Bench Verified）可能在未来6-12个月内饱和的问题，为衡量AI编程进步提供了更真实的标尺[13][37] - 现有基准存在数据污染风险高和任务过于简单（如SWE-Bench Verified中32.2%的任务仅需修改1-2行代码）两大缺陷，无法反映工业级应用需求[14][16] - 该基准表明，在贴近真实世界的编程任务中，大型语言模型的长程编码能力仍是主要短板，距离工业级应用标准仍有差距[8][17]