Workflow
推切(Pushcut)现象
icon
搜索文档
SimpleVLA-RL:突破 VLA 模型训练瓶颈,RL实现端到端在线训练
自动驾驶之心· 2025-09-15 03:56
文章核心观点 - 提出名为SimpleVLA-RL的新型强化学习框架,旨在解决当前视觉-语言-动作模型训练中的数据稀缺和泛化能力弱两大核心瓶颈 [3][4] - 该框架通过结果奖励和探索增强策略,显著提升了VLA模型在多种基准测试中的性能,并实现了高效仿真到现实的迁移 [6][7][8] - 研究发现RL训练能诱导模型产生超越人类演示数据的新行为策略,即“Pushcut”现象,为机器人自主学习开辟了新方向 [9][25] 研究背景与核心问题 - 当前VLA模型主流训练范式“预训练+监督微调”存在数据稀缺和泛化能力弱两大问题,严重制约模型扩展性 [3] - SFT依赖成本高昂且规模受限的人类操作轨迹数据,并在面对未见过任务或环境时性能大幅下降 [3][4] - 大语言模型领域的进展表明,RL可显著提升推理能力,但将其应用于VLA面临手工设计奖励函数和环境交互成本高的挑战 [4] 主要贡献 - 构建了专为VLA设计的高效RL框架,支持交互式轨迹采样和多环境并行渲染,实现规模化训练 [7] - 在LIBERO、RoboTwin等多个基准测试中刷新SOTA性能,例如LIBERO平均成功率从91.0%提升至99.1% [7][14] - 在数据极度稀缺条件下表现优异,仅用单条演示数据即可将LIBERO平均成功率从48.9%提升至96.9% [7][19] - 仅使用仿真数据训练,便将真实世界机械臂任务的平均成功率从17.5%提升至38.5% [7][24] - 发现了由RL诱导产生的“Pushcut”新现象,即模型自主探索出如“推”等超越人类演示的新策略 [7][9] 核心方案:框架设计 - 采用动作token化策略,使VLA模型输出动作token概率分布,以兼容PPO类RL算法并生成多样化轨迹 [10] - 设计二元结果奖励机制,任务成功则整个轨迹奖励为1,失败为0,奖励均匀分配至每个动作token [11] - 通过动态采样、调整GRPO裁剪范围和提高采样温度三项修改,增强模型的探索效率 [11][15] - 采用修改后的GRPO目标函数,移除KL散度正则项,降低计算复杂度并鼓励新行为探索 [11][15] 实验验证:性能与优势 - 在LIBERO基准测试中,将OpenVLA-OFT模型平均成功率从91.0%提升至99.1%,长时序任务提升12.0个百分点 [14] - 在RoboTwin1.0基准测试中,平均成功率从39.8%提升至70.4%,其中“Blocks Stack”任务提升33.1个百分点 [16] - 在更具挑战性的RoboTwin2.0基准测试中,平均成功率从38.3%提升至68.8%,超越其他SOTA模型 [17][18] 数据效率与泛化能力 - 在“单轨迹SFT”极端数据稀缺场景下,RL训练将LIBERO平均成功率从48.9%大幅提升至96.9%,接近“全轨迹SFT+RL”效果 [19][20] - 在未见任务泛化测试中,RL方法避免了SFT的“灾难性遗忘”问题,所有未见任务成功率均获提升,最高提升36.5个百分点 [21][26] 关键发现与分析 - “Pushcut”现象表明,基于结果奖励的RL允许模型探索所有能完成任务的路径,而非局限于人类演示的单一方式 [25][29] - RL的有效性依赖于初始模型的基础能力,存在一个性能阈值,初始成功率较高时RL提升更为显著 [30][31] - 该研究与现有工作的主要差异在于其专注于机器人交互场景,采用简单规则化的结果奖励,更易于扩展 [31][32]