Workflow
PaperBench
icon
搜索文档
OpenAI官方基准测试:承认Claude遥遥领先(狗头)
量子位· 2025-04-03 02:12
模型性能对比 - Claude-3.5-Sonnet在PaperBench基准测试中断崖式领先,第二名o1-high分数仅为第一名的60%,第三名DeepSeek-R1分数为第二名的一半[6] - GPT-4o表现超过推理模型o3-mini-high成为亮点[7] - 测试成绩数据:21.0 ± 0.8(Claude-3.5-Sonnet)、13.2 ± 0.3、6.0 ± 0.3、4.1 ± 0.1、3.2 ± 0.2、2.6 ± 0.2[9] 测试方法革新 - PaperBench相比去年10月MLE-Bnch测试更注重综合能力,要求复现ICML 2024论文全过程(理解/编码/实验)[3][4] - 选取20篇ICML 2024 Spotlight和Oral论文,涉及深度学习/概率方法/强化学习等8个领域,包含8316个可评分任务[15][17] - 采用开卷考试模式,允许有限联网搜索但屏蔽原论文代码库[18] 评估流程设计 - 三阶段流程:创建代码库→GPU执行→自动评分,全程在Ubuntu容器中完成[20] - 采用分级评分标准,按叶节点/父节点逐级评估,核心指标为论文平均复制分数[19] - 使用o3-mini作为裁判模型性价比最高,单篇论文评分成本66美元,比人类专家更经济高效[22][23] 人机对比实验 - AI在工作1-6小时内进度快于人类顶尖ML博士,12-24小时阶段持平,人类需24-48小时才能超越AI[11][12] - 测试显示AI裁判模型o1-mini的F1分数达0.78,接近人类专家0.84的水平[24] 技术开源进展 - 评估所需的代码/数据/Docker镜像已在GitHub逐步开源[25][26] - 公开了BasicAgent和IterativeAgent的系统Prompt模板,强调分步执行/代码规范/时间优化等原则[28][29][30][31] - 提供完整任务指令模板,包含资源说明/提交要求/代码示例等要素[34][36]