Group Relative Policy Optimization（GRPO） - 财报，业绩电话会，研报，新闻

Group Relative Policy Optimization（GRPO）

搜索文档

具身智能之心· 2025-09-15 00:04

研究背景与核心问题 - 视觉-语言-动作（VLA）模型是机器人操控领域的关键范式能整合视觉感知语言理解与动作生成实现复杂物理环境中的任务执行 [2] - 当前主流训练流程为大规模预训练加监督微调（SFT）但存在数据稀缺性和泛化能力弱两大核心瓶颈 [2][5] - 数据稀缺性体现在SFT需大规模人类操作机器人轨迹数据采集成本极高且规模受限严重制约模型扩展性 [5] - 泛化能力弱体现在面对分布偏移如未见过的任务环境或对象时性能大幅下降尤其在长时序组合型任务中表现突出 [5] - 大推理模型领域的突破证明强化学习（RL）仅通过结果奖励就能显著提升逐步推理能力但VLA应用RL面临独特挑战 [2] SimpleVLA-RL框架设计 - 基于veRL扩展加入VLA交互式轨迹采样多环境并行渲染及训练推理渲染一体化设计解决VLA与环境交互慢成本高的问题 [6][9] - 采用结果奖励建模摒弃传统RL复杂的过程奖励使用二元结果奖励任务成功则整个轨迹奖励为1 失败则为0 [9] - 通过探索增强策略解决VLA模型探索不足问题包括动态采样调整GRPO裁剪范围和提高采样温度 [9][10] - 采用修改后的Group Relative Policy Optimization目标函数移除KL散度正则项减少内存消耗并避免限制新行为探索 [9][10] - 动作token化策略选择与PPO类RL算法兼容性最好的动作token分布生成方案通过随机采样生成多样化轨迹 [9][10] 基准测试性能 - 在LIBERO基准测试中平均成功率从91.0%提升至99.1% 其中长时序任务LIBERO-Long提升12.0个百分点（86.5%→98.5%） [12][13] - 在RoboTwin1.0基准测试中四个任务平均成功率从39.8%提升至70.4% 其中Blocks Stack任务提升33.1个百分点（7.1%→40.2%） [13] - 在RoboTwin2.0基准测试中覆盖短中长超长时序12个任务平均成功率从38.3%提升至68.8% 超越π₀（49.2%）和RDT（33.3%） [14][15] - 即使是需多轮交互的超长时序任务如Put Bottles Dustbin 也提升18.7个百分点 [14][15] 数据效率 - 在单轨迹SFT场景下 LIBERO平均成功率从48.9%提升至96.9% 长时序任务LIBERO-Long从17.3%提升至91.7% [16][17] - 与全轨迹SFT加RL（99.1%）的差距仅2.2个百分点证明RL可大幅降低对大规模演示数据的依赖 [16][17] 泛化能力 - 在LIBERO的9个已见任务训练加1个未见任务测试实验中 SimpleVLA-RL所有未见任务成功率均提升 [18][22] - LIBERO-Object的Unseen Task 2提升36.5个百分点 LIBERO-Spatial的Unseen Task 1从43.3%提升至71.8% [22] - 证明RL能学习通用技能而非过拟合特定数据避免SFT的灾难性遗忘问题 [18][22] 真实世界部署 - 仅用仿真数据训练真实世界机械臂任务平均成功率从17.5%提升至38.5% [7][23] - Stack Bowls任务提升32个百分点（38.0%→70.0%） Pick Bottle任务实现14%成功率 [23] - 验证了高效的Sim-to-Real迁移能力和真实部署能力 [7][23] Pushcut现象与失败模式 - 在RoboTwin2.0任务中 RL训练使模型自主探索出推等超越人类演示的新策略被定义为Pushcut现象 [8][24] - 结果奖励允许模型探索所有能完成任务的路径而非局限于人类演示的单一方式 [24] - SimpleVLA-RL的有效性依赖初始模型能力初始成功率需在阈值以上 RL才能通过探索进一步优化性能 [27][28][29] - 初始成功率为0时即使施加RL性能仍维持0 初始成功率较低时提升有限初始成功率较高时提升显著 [28][29] 研究结论 - 降低对大规模演示数据的依赖提升数据效率 [30][32] - 增强模型在分布偏移场景下的泛化能力 [30][32] - 实现高效的Sim-to-Real迁移提升真实世界任务性能 [30][32] - Pushcut现象证明RL能让VLA模型超越人类演示的局限探索更优策略 [8][24][32]

Group Relative Policy Optimization（GRPO）

Group Relative Policy Optimization（GRPO）

SimpleVLA - RL