早期经验范式(智能体训练方法)
搜索文档
改变强化学习范式,Meta新作呼应Sutton「经验时代」预言
机器之心· 2025-10-13 06:37
行业范式转变 - AI发展正从依赖人类数据的“数据时代”转向通过与环境互动生成“经验流”的“经验时代”,这是重大的范式转变[1] - 当前AI智能体在开放式场景中面临挑战,包括缺乏可验证的奖励信号以及在长时间跨度内进行低效探索与泛化[1] 技术挑战与现有方法局限 - 目前大多数语言智能体采用监督微调从专家示范中学习,该方法训练高效但缺乏环境交互,无法从失败中学习[2] - 监督微调方法对高质量专家数据依赖强、成本高且泛化性有限[2] Meta提出的新范式:早期经验 - 公司创新性地提出“早期经验”范式,作为模仿学习与强化学习之间的中间路径[2] - 该范式让智能体不仅从人工数据中学习,还从自身在环境中执行动作后产生的未来状态中学习,将这些状态转化为监督信号[2] - 该方法成功将智能体完成任务的成功率提升了9.6%,分布外泛化能力提升了9.4%[3] 早期经验的核心方法 - 隐式世界建模:使用收集到的状态作为环境动态策略的基础,将下一状态预测建模为标准的下一个token预测目标[3][10] - 自我反思:智能体从其次优行为中学习,生成自然语言解释来说明为何专家选择更优,以改进推理和决策[3][13] - 两种方法都遵循将智能体自身动作及导致的未来状态转化为可扩展监督信号的核心原则[18] 实验结果:任务成功率提升 - 在ALFWorld任务中,使用-3.2-3B模型,自我反思方法将成功率从模仿学习的78.1%提升至85.9%,绝对提升7.8个百分点[21] - 在TravelPlanner任务中,使用-2.5-7B模型,自我反思方法将成功率从16.7%提升至31.7%,绝对提升15.0个百分点[21] - 在WebShop任务中,使用-3.2-3B模型,隐式世界建模方法将成功率从41.8%提升至60.2%,绝对提升18.4个百分点[21] 实验结果:分布外泛化能力 - 在分布外评估中,早期经验方法始终显著减小与模仿学习的性能差距,表明其能有效帮助策略适应演示数据未覆盖的场景[22][23] - 在ALFWorld任务中,使用-3.1-8B模型,隐式世界建模方法在分布外数据上的成功率从模仿学习的63.3%提升至78.1%,绝对提升14.8个百分点[22] 战略意义与未来影响 - 早期经验在人类数据时代与经验时代之间起到了中期训练桥梁的作用[25] - 该方法产生的策略即使没有奖励也能表现出色,并放大了后续强化学习的益处,为RL继续突破人类天花板铺就快速通道[3][25] - 一旦RL基础设施在新环境中可用,早期经验可以立即解锁进一步收益,而无需从头开始重新训练[25]