Workflow
递归代码生成
icon
搜索文档
挑战ReAct!MetaGPT团队提出ReCode智能体新范式
机器之心· 2025-12-04 06:10
文章核心观点 - 当前主流AI智能体框架(如ReAct和带规划器的智能体)受限于固定的决策粒度,导致在复杂任务中效率低下、适应性差[2] - DeepWisdom的研究团队提出ReCode新范式,其核心洞察是“规划就是高层次的行动”,通过递归代码生成统一规划与执行,使智能体能在不同决策粒度间自由切换[3][11][12] - 实验证明,ReCode在任务成功率、推理成本和训练效率上均显著优于现有基线方法,代表了智能体范式的重大升级[6][19] 现有智能体范式的局限性 - **ReAct智能体**:采用固定的细粒度观察-动作循环,每次仅执行一个原始动作,缺乏全局规划,在复杂长期任务中易迷失方向[8][9] - **规划-执行分离的智能体**:规划器与执行器模块分离,使用不同语言(如自然语言与动作指令),损害动态适应性并限制泛化能力,且常依赖预定义模板[10] ReCode范式的关键设计与原理 - **统一表征**:用统一的代码表征表示所有决策,高层计划表示为占位符函数,低层动作表示为可执行函数[12] - **递归工作流程**:系统将任务指令转换为根占位符函数,智能体生成可混合占位符与原始动作的代码,执行时递归展开占位符直至全部变为原始动作[15][16] - **技术实现**:通过统一变量命名空间传递上下文、设置最大递归深度防止无限循环、引入纠正机制处理代码生成错误[16][17] ReCode带来的性能提升 - **推理性能提升**:在ALFWorld未见任务上成功率高达96.27%,远超ReAct的64.18%和CodeAct的85.07%;在WebShop环境中比最佳基线ADaPT提升21.9%;三个环境平均性能从基线最佳的47.4%提升至60.8%[6][20][22] - **成本效率提升**:一条ReCode轨迹的平均Token成本比ReAct低78.9%,比CodeAct低84.4%,花费不到对手的四分之一[23][24] - **训练效率提升**:在ScienceWorld环境中,ReCode仅用3500个训练样本达到88.5%奖励,而ReAct需要12833个样本(3.7倍)才能达到相似性能;使用前10%数据时,ReCode用688个样本达到44.87%性能,ReAct用3094个样本(4.5倍)仅达34.05%[24][25][26] 影响与未来展望 - 该研究在推特上获得约20万浏览量,引发学术界与工业界广泛关注[7] - ReCode的递归结构产生层次化训练数据,使模型不仅能学习执行,还能学习规划与分解,掌握可迁移的任务结构[25] - 未来研究方向包括:通过专门预训练让模型理解递归分解逻辑、用强化学习奖励高效层次化规划、引入自动课程学习等[27]