RECAP方法
搜索文档
Physical Intelligence团队正式发布π*0.6
自动驾驶之心· 2025-11-19 00:03
文章核心观点 - Physical Intelligence团队发布了一种名为RECAP的通用强化学习方法,旨在使视觉语言动作模型能够通过从部署经验中学习来实现自我改进 [2][4] - RECAP方法通过整合演示数据、自主收集数据及专家干预数据,采用优势条件机制进行训练,显著提升了VLA模型在复杂现实任务中的性能和鲁棒性 [4][7] - 实验证明,采用RECAP方法训练的模型在衣物折叠、纸箱组装和咖啡制作等高难度任务上,任务吞吐量提升超过两倍,同时任务失败率降低约50% [4][10][28][30] RECAP方法概述 - RECAP是一种基于经验与校正的优势条件策略强化学习方法,其核心流程包括数据采集、价值函数训练和优势条件训练三个步骤 [7][11] - 该方法首先通过离线强化学习在多样化多任务数据集上预训练通用VLA模型,随后利用机器人现场收集的数据进行下游任务的持续优化 [4][7][13] - 方法通过价值函数估算动作的优势值,并让策略基于此优势值进行条件化训练,从而能从次优数据中提取更优策略 [7][13][16] 模型架构与技术细节 - 研究基于VLA模型PiStar 实例化RECAP,该模型是在Star 基础上的升级版本,采用了更大型的主干网络和更多样化的条件机制 [8][14] - 模型新增了基于二值化优势值的条件调控能力,使其能够通过价值函数来优化策略,模型架构包含860M参数的动作专家 [8][14][18] - 价值函数采用670M参数的视觉-语言模型作为骨干网络,从Gemma 3 4B模型初始化,用于预测任务成功的剩余步数 [14][19] 实验任务与性能评估 - 评估任务包括三大类:衣物折叠(简单T恤/短裤、多样化11种物品)、使用商用意式咖啡机制作饮品、以及真实工厂场景的纸箱组装 [23][24][25] - 在最具挑战性的多样化衣物整理和咖啡制作任务中,RECAP使任务吞吐量提升超过两倍,故障率降低两倍或更多 [28][30] - 经过RECAP训练的策略展示了卓越的鲁棒性,例如连续制作浓缩咖啡达13小时,在新环境中折叠陌生衣物持续运转超过两小时无中断 [10] 训练流程与数据整合 - 训练流程包含预训练、基于演示数据的监督微调、以及多轮自主数据收集与强化学习优化的迭代循环 [21][22] - 数据整合策略独特,既包含完全自主收集的片段,也包含由专家遥操作员监控并可进行修正干预的片段,用于克服探索挑战和修正重大错误 [22] - 价值函数和策略在每轮迭代中均从预训练检查点进行微调,而非持续微调上一轮模型,这有助于避免多轮迭代中的性能漂移 [22] 方法比较与优势 - 在衣物整理任务中,采用RECAP方法的模型实现的吞吐量远超AWR和PPO等传统策略提取方法,展现出显著优势 [35] - RECAP方法能有效消除在严格成功标准下被视为失败的特定故障模式,仅需相对较少数据即可有效调整策略行为 [35] - 尽管构建于已有研究中的独立算法模块之上,但RECAP独特的组合方式具有创新性,首次证明了通用强化学习方案能显著提升VLA模型的实战性能 [10]