Workflow
强化学习 (RL)
icon
搜索文档
复刻pi0.6很难?SRPO:无需微调 Value Model,VLA-RL 也能刷新 SOTA
具身智能之心· 2025-12-05 00:02
文章核心观点 - 强化学习是提升视觉-语言-动作模型性能的关键路径,但传统方法构建高质量奖励模型成本高昂 [2] - SRPO框架提出了一种无需任务特定奖励微调的“自我参考”与“通用世界表征”结合的奖励构建机制 [4] - 该方法在多个基准测试中刷新了SOTA,并显著提升了开源模型的真机表现 [4] 算法原理与核心思想 - 核心思想是“我最好的表现,就是我的老师”,利用批次内成功轨迹作为动态参考系 [13] - 通过预训练的世界模型提取潜空间世界表征,以衡量失败轨迹与成功轨迹在行为层面的相似度 [16] - 算法流程包括世界模型编码、成功轨迹聚类、潜空间距离计算、奖励构造和策略更新五个步骤 [17][18][19][20][21] - 策略更新采用组内归一化优势估计和PPO风格的Clipped Surrogate Objective,并加入KL散度正则化以防止灾难性遗忘 [22][23][24] 性能表现与实验结果 - 在LIBERO基准测试中达到99.2%的成功率,刷新SOTA [26] - 在LIBERO-Plus的泛化任务上,性能较one-shot SFT基线提升高达167% [28] - 相较于使用0/1奖励的GRPO方法,SRPO仅需219步就能将模型成功率从17.3%提升至98.6%,效率优势显著 [34] - 在真机测试中,对开源模型Pi0和Pi0-fast的成功率相对SFT分别提升66.8%和86.7% [36] 奖励信号质量与优势 - 利用大规模视频预训练的世界模型表征,其奖励信号更平滑、合理,能更好地区分成功与失败轨迹 [16][31] - 在五项定量评估指标上均优于像素级方法和通用视觉编码器基线 [33] - 奖励构建方法对包含重复操作或多步骤的长程任务表现出更强的稳定性和合理性 [37] 技术特点与创新 - 无需针对每个任务收集数据并微调价值模型,解决了多任务、少样本场景下的挑战 [8] - 无需额外专家数据或人工设计稠密奖励,实现了“任务无关”的通用渐进式奖励构建 [9][10] - 方法可作为通用插件,显著增强现有VLA模型的真机操作能力 [36]