Flow Matching VLA
搜索文档
RLinf上新πRL:在线强化学习微调π0和π0.5
机器之心· 2025-11-06 08:58
技术背景与挑战 - 基于流匹配的视觉语言动作模型,如Physical Intelligence发布的π0和π0.5,能生成高维平滑的连续动作序列,在复杂操控任务中具显著优势[2] - 此类模型训练严重依赖大规模高质量人类演示数据,数据收集与标注成本高昂且周期漫长[2] - 强化学习可通过与环境交互自行探索迭代,减少对大量数据的依赖并提升监督微调的性能上限[2] - 针对流匹配视觉语言动作模型的强化学习研究较少,核心挑战在于其通过迭代去噪生成动作,难以直接计算输出动作的对数似然,而这是策略梯度方法更新的关键[2] πRL框架核心创新 - 由清华、北大、CMU等机构联合推出,是面向流匹配视觉语言动作模型的在线强化学习微调框架,基于RLinf系统实现[3] - 提出Flow-Noise和Flow-SDE两种微调方案,解决流匹配视觉语言动作模型难以直接计算输出动作对数似然的问题[8] - Flow-Noise通过将去噪过程建模为离散马尔可夫过程,直接计算去噪序列的联合概率密度[10][13] - Flow-SDE将去噪与环境交互结合,构建双层马尔可夫决策过程,训练中混合使用确定性采样和随机探索以加速训练[10][11][20] - 策略在收集数据后统一采用PPO进行策略梯度优化[10] 实验性能与结果 - 在LIBERO测试平台,πRL使π0模型平均成功率从57.6%提升至97.6%,π0.5模型从77.1%提升至98.3%,超越全数据监督微调训练的流匹配视觉语言动作模型表现[3][19] - 在LIBERO-Long长时序任务上,πRL使π0.5单样本监督微调性能从43.9%大幅提升至94.0%[21] - 在ManiSkill构建的4,352种抓取-放置任务组合中,πRL将π0成功率从38.42%提升至78.83%,π0.5成功率从40.06%提升至90.85%[24][27] - 在12个域随机化测试环境中,πRL显著提升了两类模型在新环境下的泛化性能[26][27] - 强化学习使模型完成操作任务的平均步数显著减少,效率逼近专家数据水平[28] 技术细节与消融研究 - 探索了两种Actor-Critic架构:一种将Critic部署在动作模型之后,另一种直接将Critic接入视觉语言模型后[14][16][20] - 对于π0模型,Critic接动作模型隐藏层输出更适用;对于π0.5模型,Critic接视觉语言模型隐藏层输出更优[20] - 算法对比显示,使用流匹配视觉语言动作模型时,PPO在最终性能和训练稳定性上均优于GRPO[31] - Flow-Noise收敛略快,Flow-SDE单步更新更快且与去噪步数解耦,两者最终性能接近[35] - 可学习噪声与固定噪声两种策略在相同框架下性能类似,证明两类噪声注入均有效[35] - Critic接在视觉语言模型后略优于接在动作模型后,且更稳定[35] 资源与未来方向 - 全部代码、模型和文档示例已完全开源,资源包括论文链接、开源代码库、模型仓库及复现文档[5][6] - 未来计划接入更多仿真环境进行更丰富的基准测试,并针对强化学习带来的泛化增益展开深入分析[36]