推切（Pushcut）现象 - 财报，业绩电话会，研报，新闻

推切（Pushcut）现象

搜索文档

自动驾驶之心· 2025-09-15 03:56

文章核心观点 - 提出名为SimpleVLA-RL的新型强化学习框架，旨在解决当前视觉-语言-动作模型训练中的数据稀缺和泛化能力弱两大核心瓶颈 [3][4] - 该框架通过结果奖励和探索增强策略，显著提升了VLA模型在多种基准测试中的性能，并实现了高效仿真到现实的迁移 [6][7][8] - 研究发现RL训练能诱导模型产生超越人类演示数据的新行为策略，即“Pushcut”现象，为机器人自主学习开辟了新方向 [9][25] 研究背景与核心问题 - 当前VLA模型主流训练范式“预训练+监督微调”存在数据稀缺和泛化能力弱两大问题，严重制约模型扩展性 [3] - SFT依赖成本高昂且规模受限的人类操作轨迹数据，并在面对未见过任务或环境时性能大幅下降 [3][4] - 大语言模型领域的进展表明，RL可显著提升推理能力，但将其应用于VLA面临手工设计奖励函数和环境交互成本高的挑战 [4] 主要贡献 - 构建了专为VLA设计的高效RL框架，支持交互式轨迹采样和多环境并行渲染，实现规模化训练 [7] - 在LIBERO、RoboTwin等多个基准测试中刷新SOTA性能，例如LIBERO平均成功率从91.0%提升至99.1% [7][14] - 在数据极度稀缺条件下表现优异，仅用单条演示数据即可将LIBERO平均成功率从48.9%提升至96.9% [7][19] - 仅使用仿真数据训练，便将真实世界机械臂任务的平均成功率从17.5%提升至38.5% [7][24] - 发现了由RL诱导产生的“Pushcut”新现象，即模型自主探索出如“推”等超越人类演示的新策略 [7][9] 核心方案：框架设计 - 采用动作token化策略，使VLA模型输出动作token概率分布，以兼容PPO类RL算法并生成多样化轨迹 [10] - 设计二元结果奖励机制，任务成功则整个轨迹奖励为1，失败为0，奖励均匀分配至每个动作token [11] - 通过动态采样、调整GRPO裁剪范围和提高采样温度三项修改，增强模型的探索效率 [11][15] - 采用修改后的GRPO目标函数，移除KL散度正则项，降低计算复杂度并鼓励新行为探索 [11][15] 实验验证：性能与优势 - 在LIBERO基准测试中，将OpenVLA-OFT模型平均成功率从91.0%提升至99.1%，长时序任务提升12.0个百分点 [14] - 在RoboTwin1.0基准测试中，平均成功率从39.8%提升至70.4%，其中“Blocks Stack”任务提升33.1个百分点 [16] - 在更具挑战性的RoboTwin2.0基准测试中，平均成功率从38.3%提升至68.8%，超越其他SOTA模型 [17][18] 数据效率与泛化能力 - 在“单轨迹SFT”极端数据稀缺场景下，RL训练将LIBERO平均成功率从48.9%大幅提升至96.9%，接近“全轨迹SFT+RL”效果 [19][20] - 在未见任务泛化测试中，RL方法避免了SFT的“灾难性遗忘”问题，所有未见任务成功率均获提升，最高提升36.5个百分点 [21][26] 关键发现与分析 - “Pushcut”现象表明，基于结果奖励的RL允许模型探索所有能完成任务的路径，而非局限于人类演示的单一方式 [25][29] - RL的有效性依赖于初始模型的基础能力，存在一个性能阈值，初始成功率较高时RL提升更为显著 [30][31] - 该研究与现有工作的主要差异在于其专注于机器人交互场景，采用简单规则化的结果奖励，更易于扩展 [31][32]