递归代码生成 - 财报，业绩电话会，研报，新闻

递归代码生成

搜索文档

机器之心· 2025-12-04 06:10

文章核心观点 - 当前主流AI智能体框架（如ReAct和带规划器的智能体）受限于固定的决策粒度，导致在复杂任务中效率低下、适应性差[2] - DeepWisdom的研究团队提出ReCode新范式，其核心洞察是“规划就是高层次的行动”，通过递归代码生成统一规划与执行，使智能体能在不同决策粒度间自由切换[3][11][12] - 实验证明，ReCode在任务成功率、推理成本和训练效率上均显著优于现有基线方法，代表了智能体范式的重大升级[6][19] 现有智能体范式的局限性 - **ReAct智能体**：采用固定的细粒度观察-动作循环，每次仅执行一个原始动作，缺乏全局规划，在复杂长期任务中易迷失方向[8][9] - **规划-执行分离的智能体**：规划器与执行器模块分离，使用不同语言（如自然语言与动作指令），损害动态适应性并限制泛化能力，且常依赖预定义模板[10] ReCode范式的关键设计与原理 - **统一表征**：用统一的代码表征表示所有决策，高层计划表示为占位符函数，低层动作表示为可执行函数[12] - **递归工作流程**：系统将任务指令转换为根占位符函数，智能体生成可混合占位符与原始动作的代码，执行时递归展开占位符直至全部变为原始动作[15][16] - **技术实现**：通过统一变量命名空间传递上下文、设置最大递归深度防止无限循环、引入纠正机制处理代码生成错误[16][17] ReCode带来的性能提升 - **推理性能提升**：在ALFWorld未见任务上成功率高达96.27%，远超ReAct的64.18%和CodeAct的85.07%；在WebShop环境中比最佳基线ADaPT提升21.9%；三个环境平均性能从基线最佳的47.4%提升至60.8%[6][20][22] - **成本效率提升**：一条ReCode轨迹的平均Token成本比ReAct低78.9%，比CodeAct低84.4%，花费不到对手的四分之一[23][24] - **训练效率提升**：在ScienceWorld环境中，ReCode仅用3500个训练样本达到88.5%奖励，而ReAct需要12833个样本（3.7倍）才能达到相似性能；使用前10%数据时，ReCode用688个样本达到44.87%性能，ReAct用3094个样本（4.5倍）仅达34.05%[24][25][26] 影响与未来展望 - 该研究在推特上获得约20万浏览量，引发学术界与工业界广泛关注[7] - ReCode的递归结构产生层次化训练数据，使模型不仅能学习执行，还能学习规划与分解，掌握可迁移的任务结构[25] - 未来研究方向包括：通过专门预训练让模型理解递归分解逻辑、用强化学习奖励高效层次化规划、引入自动课程学习等[27]