Workflow
AutoMLGen
icon
搜索文档
上海AI Lab&华师大:AI智能编程新框架,节省一半时间就能“聪明”地写代码
36氪· 2025-10-17 12:13
文章核心观点 - 上海人工智能实验室与华东师范大学联合提出AutoMLGen框架,旨在解决现有大语言模型在机器学习工程中优化能力不足的问题 [1] - 该框架通过融合领域知识与创新的蒙特卡洛图搜索,使AI智能体从“代码生成”进阶到“算法优化”,实现了自主探索与持续提升 [2][4] - 在MLE-Bench基准测试中,AutoMLGen仅用标准时长一半的计算预算(12小时)即达到36.4%的平均奖牌率和18.7%的金牌率,表现优于其他方法 [11][12] 技术框架与创新 - AutoMLGen由领域知识库、蒙特卡洛图搜索和细粒度算子库三大模块组成,构建了从经验指引到智能探索再到方案精修的自进化闭环 [6] - 领域知识库系统化地汇总了模型层、数据层和策略层的专家经验,使智能体能从“零经验”快速启动并实现经验迁移 [7] - 创新的蒙特卡洛图搜索取代传统树状搜索,通过主扩展、分支内演化、跨分支参考和多分支聚合四种机制,实现不同搜索分支间的节点与轨迹动态融合及经验共享 [8] - 细粒度算子库定义了方案间的演化方式,为MCGS提供通用演化逻辑,使优化过程更连贯高效 [9] 性能表现与实验结果 - 在MLE-Bench榜单上,AutoMLGen使用DeepSeek-R1模型,以12小时计算预算取得36.4%的平均奖牌率和18.7%的金牌率,优于使用24小时预算的R&D-Agent(22.4%平均奖牌率)和AIDE(8.6%平均奖牌率)等竞争对手 [11] - 在低复杂度任务中奖牌率达到62.1% ± 3.0%,中复杂度任务中达到26.3% ± 2.6%,有效方案生成率高达96.4% ± 0.4% [11] - 模块消融实验显示,完整框架(知识库+MCGS)将奖牌率从基线40.91%提升至68.12%,证明了各模块的关键作用 [15] - 该系统在不同基础模型上均展现出优异适配性,且性能曲线能快速收敛并持续上升 [16] 行业意义与发展前景 - AutoMLGen标志着AI智能体在复杂工程与算法设计任务中的能力演进,证明了AI在高复杂度任务中具备自主探索与持续提升的潜力 [19] - 该框架的理念可向更广泛的智能系统范式扩展,包括算法发现、科研自动化、工程设计和多智能体协作等领域 [20] - 基于图结构的搜索逻辑与知识复用机制,为未来智能体的发展提供了通用的演化框架,有望推动人工智能向更高层次的智能化与自我改进 [20]
AI智能编程新框架,节省一半时间就能“聪明”地写代码丨上海AI Lab&华师大
量子位· 2025-10-17 09:45
文章核心观点 - 大语言模型在代码生成方面表现出色,但在需要持续迭代和性能调优的机器学习工程场景中仍存在差距 [1] - AutoMLGen框架通过融合通用大模型推理与领域知识,实现了AI智能体从"代码生成"到"算法优化"的能力转变 [3][4] - 该框架在MLE-Bench基准测试中以12小时计算预算实现36.4%平均奖牌率和18.7%金牌率,性能优于现有方法 [4][21] AutoMLGen框架设计 - 框架由领域知识库、蒙特卡洛图搜索和细粒度算子库三大模块组成,构建经验指引→智能探索→方案精修的自进化闭环 [10] - 领域知识库覆盖模型层、数据层与策略层,为智能体提供经验启发,有效缓解冷启动问题 [11][12] - 蒙特卡洛图搜索通过分支—节点动态融合打破传统MCTS的孤立局限,实现轨迹复用和跨分支聚合 [4][13] - 细粒度算子库定义了解法之间的演化方式,为图搜索提供通用的演化逻辑 [17] 技术创新亮点 - MCGS图搜索具备四种核心机制:主扩展、分支内演化、跨分支参考和多分支聚合 [14][16] - 框架实现了从"线性树"到"图式网络"的跃迁,让智能体具备跨分支学习与多解融合能力 [14] - 系统能在动态试探与自我修正中实现经验迁移,使智能体从"新手"进化为"专家型AI" [12][18] 性能表现 - 在MLE-Bench测试中仅用标准时长一半的计算预算(12小时),达到36.4%平均奖牌率和18.7%金牌率 [4][21] - 在MLE-Bench-Lite测试中以62.1%的奖牌率领先现有方法,体现出一致的性能与出色泛化能力 [22][23] - 消融实验显示各模块在性能提升中均发挥关键作用,知识库提供方向指引,演化机制实现反思与修正 [24] - 框架在不同基础模型上展现优异适配性,更强的基模型带来更高上限 [25] 案例分析与应用前景 - 典型案例展示系统从问题理解到方案实现的全过程,具备自主进化能力 [28] - 性能曲线快速收敛并持续上升,始终高于基线,展现动态优化与稳健成长能力 [27] - 该技术标志着智能体在复杂工程与算法设计任务中的能力演进,为AI向更高层次智能化奠定基础 [31] - 理念可向算法发现、科研自动化、工程设计等更广泛智能系统范式扩展 [31]