Workflow
视觉 - 语言 - 动作 (VLA) 模型
icon
搜索文档
复刻pi0.6很难?SRPO:无需微调 Value Model,VLA-RL 也能刷新 SOTA
具身智能之心· 2025-12-05 00:02
文章核心观点 - 强化学习是提升视觉-语言-动作模型性能的关键路径,但传统方法构建高质量奖励模型成本高昂 [2] - SRPO框架提出了一种无需任务特定奖励微调的“自我参考”与“通用世界表征”结合的奖励构建机制 [4] - 该方法在多个基准测试中刷新了SOTA,并显著提升了开源模型的真机表现 [4] 算法原理与核心思想 - 核心思想是“我最好的表现,就是我的老师”,利用批次内成功轨迹作为动态参考系 [13] - 通过预训练的世界模型提取潜空间世界表征,以衡量失败轨迹与成功轨迹在行为层面的相似度 [16] - 算法流程包括世界模型编码、成功轨迹聚类、潜空间距离计算、奖励构造和策略更新五个步骤 [17][18][19][20][21] - 策略更新采用组内归一化优势估计和PPO风格的Clipped Surrogate Objective,并加入KL散度正则化以防止灾难性遗忘 [22][23][24] 性能表现与实验结果 - 在LIBERO基准测试中达到99.2%的成功率,刷新SOTA [26] - 在LIBERO-Plus的泛化任务上,性能较one-shot SFT基线提升高达167% [28] - 相较于使用0/1奖励的GRPO方法,SRPO仅需219步就能将模型成功率从17.3%提升至98.6%,效率优势显著 [34] - 在真机测试中,对开源模型Pi0和Pi0-fast的成功率相对SFT分别提升66.8%和86.7% [36] 奖励信号质量与优势 - 利用大规模视频预训练的世界模型表征,其奖励信号更平滑、合理,能更好地区分成功与失败轨迹 [16][31] - 在五项定量评估指标上均优于像素级方法和通用视觉编码器基线 [33] - 奖励构建方法对包含重复操作或多步骤的长程任务表现出更强的稳定性和合理性 [37] 技术特点与创新 - 无需针对每个任务收集数据并微调价值模型,解决了多任务、少样本场景下的挑战 [8] - 无需额外专家数据或人工设计稠密奖励,实现了“任务无关”的通用渐进式奖励构建 [9][10] - 方法可作为通用插件,显著增强现有VLA模型的真机操作能力 [36]
港科广&清华联合提出Spatial Forcing:隐式空间对齐,超越主流2D/3D VLA模型性能
具身智能之心· 2025-10-18 16:03
文章核心观点 - 提出一种名为Spatial Forcing (SF)的新方法 该方法无需依赖显式的3D传感器输入 而是通过隐式空间对齐策略 使视觉-语言-动作模型在训练过程中自发形成空间感知能力 从而显著提升机器人在真实物理世界中的操作性能 [2][10][16] 技术背景与现有范式局限 - 当前主流的视觉-语言-动作模型大多仅依赖2D视觉数据 缺乏对真实3D空间的深层理解 难以应对复杂的物理世界操控任务 [2] - 现有3D VLA模型尝试通过深度相机或激光雷达引入显式3D信息 但面临传感器数据质量低 不同机器人传感器类型和安装方式差异大 以及无法利用现有纯2D大规模机器人数据集等限制 [2][8] - 另一种方法是使用深度估计网络从2D图像中估计3D信息 但效果受限于离线深度估计器的性能 导致训练结果非最优 [9] Spatial Forcing方法论 - 方法核心是通过将VLA骨干网络的中间层视觉特征 对齐到外部3D基础模型生成的强大3D几何表征 使模型隐式获得空间理解能力 [10][16] - 具体流程包括:使用预训练的3D基础模型提取像素级空间表征 取出VLA模型的视觉token并通过MLP投影 计算与3D表征的余弦相似度作为空间对齐损失 并与动作生成损失共同优化模型 [16] - 实验发现 在VLA骨干网络中较深但非最深的注意力层施加空间对齐监督 能最有效地提升模型动作表现 [16] - 在推理阶段 该方法不会带来额外的结构或计算开销 模型运行方式与普通VLA完全一致 具备高实用性与可扩展性 [16] 实验验证与性能提升 - 深度探测实验表明 在纯2D图像数据上预训练的传统VLA模型 其视觉特征无法生成有意义的深度结构 缺乏准确的空间感知 [11][13] - 在LIBERO仿真环境中 该方法超越了主流2D和3D VLA模型 平均任务成功率达到了98.5% 优于GeoVLA的97.7%和3D-CAVLA的98.1% [18] - 在真实机器人环境的双臂和单臂操作任务中 该方法显著提高了任务成功率 [14][18] - 该方法展现出卓越的训练效率和数据利用效率 训练效率提升高达3.8倍 数据利用效率提升高达5.9倍 [14] 技术优势总结 - 该方法的核心优势在于让机器人无需看3D也能懂3D 解决了显式3D方法对特定传感器的依赖问题 并能够充分利用现有的大规模2D机器人数据集 [2][10]