文章核心观点 - Physical Intelligence团队提出了一种名为RECAP的通用强化学习方法,旨在使视觉语言动作模型能够通过在实际部署中收集的经验数据进行自我改进 [4] - RECAP方法通过整合演示数据、自主执行数据以及专家远程干预数据,采用优势条件机制对VLA模型进行训练,从而显著提升模型在复杂任务上的性能和鲁棒性 [4][7] - 实验结果表明,采用RECAP方法训练的模型在衣物折叠、纸箱组装和咖啡制作等高难度任务中,任务吞吐量提升超过两倍,同时任务失败率降低约50% [4][10][28][30] RECAP方法概述 - RECAP是一种基于经验与校正的优势条件策略强化学习方法,其核心流程包括数据采集、价值函数训练和优势条件训练三个步骤 [11] - 该方法首先通过离线强化学习在多样化多任务数据集上预训练通用VLA模型,随后利用机器人现场收集的数据进行下游任务的性能优化 [4][7] - 在部署阶段,机器人根据任务执行结果获得稀疏奖励反馈,并可接受专家干预以修正错误,所有这些数据都被整合到后续的训练迭代中 [7][12][22] 模型架构与技术细节 - RECAP基于VLA模型进行实例化,该模型源自模型,并增加了基于二值化优势值的条件调控能力,使其适用于强化学习训练 [14][16] - 模型采用知识隔离训练流程,能够通过流匹配灵活表示分块动作分布,并生成用于高级策略推理的中间文本 [15] - 价值函数采用670M参数的视觉语言模型作为骨干网络,其训练目标是根据片段级成功标签预测成功完成所需的步数,奖励函数设计确保失败片段具有低价值 [17][19] 实验任务与性能评估 - 评估任务涵盖三大类:衣物折叠、咖啡制作和纸箱组装,每项任务均涉及复杂的多步骤操作,持续时间在5到15分钟之间 [23][24][25] - 在衣物折叠任务中,模型需要处理多种物品,评估最具挑战性的纽扣衬衫折叠,成功标准为500秒内正确折叠并堆叠 [24] - 咖啡制作任务要求使用商用意式咖啡机完成双份浓缩咖啡的全套流程,成功标准为200秒内完成且无严重错误 [25] - 定量结果显示,RECAP方法在所有任务上均实现吞吐量和成功率的大幅提升,其中多样化衣物整理和咖啡制作任务的吞吐量增加超过两倍 [28][30] 迭代优化与对比分析 - 通过多轮RECAP迭代,模型性能持续改善,衣物整理任务迅速达到高成功率,而纸箱组装任务的成功率则保持稳定增长 [32] - 与AWR和PPO等其他策略提取方法相比,采用RECAP的模型在衣物整理任务上展现出显著的吞吐量优势 [35] - 在针对特定故障模式消除的实验中,RECAP方法仅需相对较少数据即可有效调整策略行为,消除在严格标准下的失败模式 [35] 应用部署与未来方向 - 经过RECAP训练的模型已实现实际部署,包括连续制作浓缩咖啡达13小时,在新环境中折叠陌生衣物持续运转超过两小时,以及在工厂场景中组装实际包装纸箱 [10] - 未来改进方向包括实现奖励反馈和任务重置的自动化、开发更复杂的探索机制,以及将当前的迭代式离线更新模式扩展为完全并行的在线强化学习框架 [36]
Physical Intelligence团队正式发布π*0.6!VLA+强化学习训练
具身智能之心·2025-11-19 00:34