Workflow
一文尽览!2025年多篇VLA与RL融合的突破方向
具身智能之心·2025-08-25 00:04

视觉-语言-动作模型与强化学习融合研究进展 - 2025年机器人具身智能领域聚焦视觉-语言-动作模型与强化学习的融合 旨在解决真实场景中决策与执行精度问题 相关研究在ICLR、RSS、ICRA、CVPR等顶会集中收录[2] GRAPE模型创新 - 通过轨迹级VLA对齐和任务阶段分解提升模型泛化能力 解决行为克隆依赖导致的未见任务适应性问题[4][5] - 采用可定制时空约束的偏好建模 支持根据安全、效率等目标灵活调整策略[5] - 在现实世界与模拟环境中 域内操作任务成功率提升51.79% 未见任务成功率提升58.20% 安全性目标下碰撞率降低37.44% 效率目标下启动步长减少11.15%[7] VLA-RL框架突破 - 构建轨迹级强化学习表达式 将操作轨迹转化为多模态对话形式 优化在线数据利用[10][12] - 微调预训练视觉语言模型作为机器人过程奖励模型 解决稀疏奖励问题[12] - 在LIBERO平台40个任务中性能超越OpenVLA-7B基线 并显现推理扩展规律迹象[14] ReWiND框架优势 - 通过预训练语言基奖励函数和策略 实现少样本微调适配新任务 无需重复设计奖励或演示[17][18] - 奖励模型泛化能力达基准方法2.4倍 新任务适应效率在模拟环境中快2倍 真实世界场景下双手动策略性能提升5倍[20] ConRFT强化微调方法 - 采用离线行为克隆与Q学习结合在线一致性策略的两阶段训练 提升训练稳定性[23][25] - 在八项实际操作任务中平均成功率达96.3% 较监督学习方法提升144% 回合长度缩短1.9倍[28] RLDG数据优化策略 - 利用强化学习生成高质量训练数据微调通用策略 改善动作分布与状态覆盖[32][35] - 在精确操作任务中成功率最高提升40% 泛化能力优于人类演示训练策略[38] TGRPO在线优化方案 - 融合步骤级与轨迹级优势信号优化组级估计 增强在线强化学习训练适配性[38][41] - 在十个操作任务中性能超越监督微调与PPO基线 生成策略更稳健高效[43] iRe-VLAd迭代训练框架 - 通过强化学习与监督学习循环迭代解决训练不稳定与计算负担问题[44][46][48] - 在模拟基准和真实操作套件中验证有效性 实现交互场景下性能优化[50] RIPT-VLA后训练模式 - 基于稀疏二进制成功奖励进行交互式后训练 适配低数据环境[51][52][54] - 轻量级QueST模型成功率提升21.2% OpenVLA-OFT模型达97.5%成功率 仅需1次演示即可在15次迭代内实现97%成功率[56] 行业应用与趋势 - 研究聚焦机器人操控、导航中的策略泛化、动态环境适应及多模态信息对齐问题 覆盖家居家务、工业装配、机械臂操控等高频场景[57] - 部分研究开放项目代码 推动前沿技术落地应用[57]