Workflow
视觉 - 语言 - 动作模型(VLA模型)
icon
搜索文档
缺数据也能拿SOTA?清华&上海AI Lab破解机器人RL两大瓶颈
具身智能之心· 2025-09-27 01:33
文章核心观点 - 视觉-语言-动作模型是实现机器人复杂环境灵活操作的关键,但现有训练范式存在数据采集成本高和泛化能力不足等核心瓶颈 [2][3] - SimpleVLA-RL作为一种新型端到端在线训练方案,通过交互式轨迹采样、结果奖励建模和探索增强等设计,有效解决了VLA模型训练的三大瓶颈 [4][6][14] - 该框架在多项基准测试中刷新了性能纪录,显著提升了数据效率和模型泛化能力,并展现出自主探索新策略的现象,为VLA模型的高效训练开辟了新路径 [6][9][21] VLA模型训练面临的挑战 - 主流训练流程依赖大规模预训练和有监督微调,但高质量机器人操作轨迹的数据采集成本高昂,从根本上制约了模型的可扩展性 [11] - 有监督微调的学习过程高度依赖特定数据分布,导致模型在面对分布外任务、新环境或未见对象时性能显著下降,尤其在长时序依赖任务中更为明显 [12] - 将强化学习直接应用于VLA训练面临独特挑战,包括传统RL依赖难以扩展的人工设计过程奖励,以及VLA训练需要与物理环境进行多轮交互导致效率低下和成本高昂 [12] SimpleVLA-RL框架的核心设计 - 采用交互式轨迹采样机制,模型直接输出动作token的概率分布并通过随机采样生成多样轨迹,在闭环中不断更新视觉观测和机器人状态直至任务完成 [15] - 使用极简的二元结果奖励建模,将任务成功记为1、失败记为0的奖励均匀分摊到整个轨迹的动作token上,避免了过程奖励的不可迁移性和调参麻烦 [16] - 实施探索增强策略,通过动态采样保留部分成功和部分失败的轨迹组、扩大GRPO裁剪区间以及提高rollout采样温度,鼓励模型进行更多样化的探索 [17][18][19] - 对GRPO目标进行简化,移除了KL散度正则项并不再依赖参考模型,从而减少内存消耗并让新行为的探索不受束缚 [18] 基准测试性能表现 - 在LIBERO单臂操控基准测试中,SimpleVLA-RL将OpenVLA-OFT的平均成功率从91.0%提升至99.1%,其中长时序任务LIBERO-Long提升12.0个百分点至98.5% [23][24] - 在RoboTwin1.0双臂操控基准上,四个任务平均成功率从39.8%提升至70.4%,其中"Blocks Stack"任务提升33.1个百分点至40.2% [25][26] - 在覆盖短/中/长/超长时序12个任务的RoboTwin2.0高多样性双臂基准中,平均成功率从38.3%提升至68.8%,超越π₀和RDT等对比模型 [27][28] - 在"单轨迹SFT"场景下,应用SimpleVLA-RL后,OpenVLA-OFT的LIBERO平均成功率从48.9%提升至96.9%,长时序任务LIBERO-Long从17.3%提升至91.7% [6] 泛化能力与真实世界部署 - 在LIBERO的"9个已见任务训练+1个未见任务测试"实验中,SimpleVLA-RL所有未见任务成功率均提升,其中LIBERO-Object的"Unseen Task 2"提升36.5个百分点,证明RL能学习通用技能而非过拟合特定数据 [29] - 仅使用仿真数据训练,在真实机械臂测试中,SimpleVLA-RL将平均成功率从17.5%提升至38.5%,"Stack Bowls"任务提升32个百分点至70.0%,证明RL能增强仿真模型的真实环境适配性 [30][31] 自主探索与新策略涌现 - 在RoboTwin 2.0任务中,经过SimpleVLA-RL训练的模型能够自主探索并发现更高效的替代策略,例如直接通过"推"的方式将罐子移至目标位置,研究团队将这种现象定义为"Pushcut" [32] - "Pushcut"现象的特征是模型能够突破人类演示模式限制,利用奖励信号探索并采纳演示外的路径,其本质在于结果奖励不约束具体动作模式,而是允许模型自主选择最优行为路径 [33][34]