Workflow
机器学习工程
icon
搜索文档
大模型“天梯赛”来了,让Agent在Kaggle真实任务中进化|佐治亚理工、斯坦福开源
量子位· 2025-07-26 09:01
文章核心观点 - 当前最强大的大语言模型(LLM)在解决真实、复杂的机器学习工程(MLE)任务时存在局限性,无法模拟人类工程师的反复实验、调试和优化工作流 [1] - MLE-Dojo是一个专为训练和评测大模型智能体(LLM Agents)设计的交互式基准测试框架,旨在将LLM从静态答题者转变为动态学习的机器学习工程师 [1][2] - MLE-Dojo提供了包含200多个真实Kaggle竞赛的交互式环境,支持智能体通过结构化反馈循环进行反复实验和优化 [2][12] 现有问题与解决方法 - 评测真空:现有基准大多是静态的,无法模拟真实世界中机器学习工程师的动态工作流,缺乏对持续实验、反馈吸收和资源管理等关键能力的考察 [6] - 训练缺失:大多数平台缺乏交互式环境,不支持监督微调(SFT)或强化学习(RL)等高级训练范式,限制了开发更强大AI智能体的可能性 [7] - 场景片面:许多基准只关注孤立任务,未能捕捉端到端机器学习流程的复杂性和内在联系 [8] MLE-Dojo的核心特点 - 全面的基准和框架:由超过200个真实的Kaggle竞赛构成,覆盖表格数据、计算机视觉(CV)、自然语言处理(NLP)等多个领域,其中150个任务用作训练集,50个用作评估集 [12] - 交互式可执行环境:提供Gym风格的交互环境,智能体可以调用一系列动作如request_info、validate_code、execute_code等,所有代码在安全沙箱中执行 [13] - 先进功能和精细化反馈:提供丰富的观察信息,包括错误报告、数据集信息、交互历史以及HumanRank奖励分数,该分数通过计算智能体在人类选手排行榜上的相对位置提供标准化性能指标 [14] 八大顶尖LLM评测结果 - Gemini-2.5-Pro综合实力登顶:在最关键的Elo综合评分中拔得头筹,在HumanRank分数上超越了61.95%的人类选手 [20] - 顶尖模型各有千秋:DeepSeek-R1和o3-mini等模型同样展现强大实力和适应性,在各项指标中名列前茅 [20] - 行动策略与模型性格:o3-mini策略激进,超过90%的动作直接执行代码;gpt-4o策略保守,仅有约20%的动作直接执行 [23] 性能与成本分析 - Gemini-2.5-Pro不仅性能领先,代码验证和执行中的总体失败率也是最低,生成的代码更加稳健可靠 [23] - 表现更强的模型通常能生成更长、更复杂的解决方案,交互历史也更长,表明其能进行更深入的多步推理 [24] - 顶尖推理模型通常需要更多token消耗,成本更高,但DeepSeek-r1展现出更高成本效益的潜力 [25] 开源与社区推动 - 团队已将MLE-Dojo的框架、基准和排行榜完全开源,旨在推动社区共同创新,加速下一代自主机器学习智能体的到来 [4] - 项目主页、排行榜、论文和Github链接均已公开,方便社区参与和进一步研究 [26]