RLINF-VLA：一种用于 VLA+RL 训练的统一高效框架

文章核心观点 - 研究团队提出了一个名为RLinf-VLA的统一高效框架，旨在解决视觉-语言-动作模型在强化学习训练中存在的框架零散、效率低下和缺乏统一比较平台的问题 [2] - 该框架通过高度灵活的资源分配设计和统一接口，可无缝支持多种VLA架构、RL算法与模拟器，显著提升了训练效率 [2] - 在仿真实验中，单一统一模型在130个LIBERO任务和25个ManiSkill任务上取得了极高的成功率，分别达到98.11%和97.66% [2][5] - 真实世界部署初步验证表明，经过RL训练的策略比监督微调策略展现出更强的泛化能力 [2][5] 框架设计 GPU分配策略 - 框架针对CPU并行与GPU并行模拟器资源利用模式的差异，支持三种GPU分配模式：共置模式、分离模式和混合模式，用户可通过配置文件轻松切换 [6][8] - 针对GPU并行模拟器，特别提出了“混合分配 + 细粒度流水线”策略，通过将单个GPU上的模拟器拆分为多个子模拟器来减少闲置时间 [8][10] - 混合细粒度流水线分配模式结合了共置和分离模式的优势，训练速度相比基准分离模式提升1.61至1.88倍 [2][35] 模型兼容性 - 框架支持LoRA这一参数高效微调方法，启用后可减少可训练参数、降低内存消耗并加速训练 [12] - 在模型类型上，目前支持OpenVLA（约70亿参数）和其扩展OpenVLA-OFT，后者优化了微调效率、推理速度与部署能力 [12] 多模拟器支持 - 框架选择ManiSkill（擅长基于物理的操作任务）与LIBERO（侧重指令驱动任务）作为主要模拟器，二者功能互补 [13] - 通过统一接口支持不同模拟器的向量化环境，并支持PPO和GRPO等多种强化学习算法 [13] 算法设计优势函数与对数概率 - 框架支持“动作块”概念，即策略在每个时间步预测一段短期未来动作序列，并为此定义了块级和动作级两种优势函数计算方式 [14] - 支持动作级、块级与令牌级三种对数概率计算粒度，不同选项会带来不同的优化动态 [15] - 优势函数类型兼容所有粒度不细于其自身的对数概率类型，并通过广播机制处理优势值 [17] PPO设计选择 - 在评价网络设计上，为避免增加计算开销，框架让动作网络与评价网络共享大部分参数，仅在VLA模型上附加轻量级价值头 [19] - 实验表明，OpenVLA-OFT模型使用动作级价值估计通常性能更优 [19] - 部分重置模式在“一次成功”优化目标下能提升样本效率，成功率始终高于固定episode长度模式 [19][41] GRPO设计选择 - 框架为GRPO实现了轨迹长度归一化损失，以均衡成功与失败轨迹在优化中的贡献，实验显示该设置能显著提升性能 [20][43] - 成功率过滤机制会丢弃所有轨迹回报相同的组，可提升GRPO训练稳定性，但其有效性具有任务依赖性 [20][46] 实验结果高性能表现 - 在ManiSkill的25个任务上，无论是OpenVLA还是OpenVLA-OFT模型，强化学习均带来显著性能提升，成功率相比基准提升45%至70% [21][22] - PPO算法在ManiSkill任务中始终优于GRPO，且训练稳定性更高 [22] - 在LIBERO的130个任务上训练单一模型，整体平均成功率从约65.43%提升至98.11%，性能提升约32.68个百分点 [26][28] 高效率表现 - 在GPU并行模拟器评估中，RLinf-VLA的混合模式（pipe=2）在8 GPU配置下吞吐量比基准分离模式提升1.88倍 [35] - 扩展到16与32 GPU时，混合模式通过流水线重叠计算与通信，仍比分离模式提升1.61至1.69倍 [35] - 对于CPU并行模拟器，RLinf-VLA的共置模式相比基准框架SimpleVLA-RL实现1.34至2.27倍的吞吐量提升 [35][37] 消融实验与超参数 - 动作级价值估计相比块级估计能实现更高的成功率与更低的价值损失，学习过程更有效 [39] - 有效动作掩码与轨迹长度归一化结合可带来性能提升，但其效果具有任务依赖性 [44] - 更大的轨迹批次大小有利于性能提升，且不同LoRA配置可能需要单独进行超参数调优 [48][50] 真实世界部署 - 在真实世界Franka机械臂上的部署实验对比了RL训练模型与SFT模型，任务涉及6个未见过物体的拾取放置 [51] - RL训练模型在30次尝试中成功8次，而SFT策略全部失败，显示出RL训练策略更强的零样本泛化能力 [5][51] - 除基础校准外未采用额外仿真-真实迁移技术，初步验证了基于仿真的强化学习在泛化能力上的优势 [51]