AI智能体基准测试现状 - 基准测试是评估AI系统优势与局限性的基础工具,对科研与产业发展具有关键引导作用[2] - 随着AI智能体从研究原型转向实际应用,行业开始构建专门评估其能力的基准测试,但任务设计和评估方式比传统AI测试复杂得多[3][4] - 现有10个主流基准测试中,8个存在严重问题,部分导致对AI能力100%误判[6] 现存问题案例分析 - WebArena基准测试将错误答案"45+8分钟"判定为正确(正确答案应为63分钟)[8] - τ-bench中"无操作"智能体在航班任务中获得38%正确率,尽管其完全不理解机票政策[8] - SWE-bench Verified中24%智能体排名因单元测试扩充而变动,显示原有评估不全面[25] - OSWorld因使用过时网站导致28%性能低估,评估器仍依赖已移除的CSS类名[32][33] 核心失效原因 - 模拟环境脆弱:智能体可能利用系统漏洞绕过任务要求[13] - 缺乏标准答案:代码/API调用等输出难以统一评估,主观性强[13] - 结果有效性不足:7/10基准不能真实反映任务完成情况[23] - 透明度缺失:8/10基准未公开已知问题[23] 解决方案与检查清单 - 提出AI智能体基准测试检查清单(ABC),包含43项条目,源自17个主流基准测试[17] - ABC包含三部分:结果有效性检查、任务有效性检查、基准报告指南[18] - 有效性判据:1)任务需特定能力才可解 2)评估结果真实反映完成情况[12][15] 行业影响数据 - SWE-bench Lite中41%智能体排名因测试扩充而变动[25] - WebArena因评估方法缺陷导致1.6%-5.2%性能误判[31] - 7/10基准存在可被智能体利用的捷径或无法完成的任务[23]
什么都不做就能得分?智能体基准测试出现大问题
机器之心·2025-07-15 05:37