具身智能领域技术发展综述 - 文章核心观点:梳理了近50篇视觉-语言-动作模型与强化学习相结合的研究工作,展示了该领域从2023年到2025年底的技术发展历程,主要聚焦于利用离线、在线及混合强化学习方法来微调或后训练VLA模型,以提升其在机器人操控等具身智能任务中的性能、泛化能力和安全性 [1] 离线强化学习与VLA结合 - 提出NORA-1.5模型,该模型利用世界模型和基于动作的偏好奖励进行训练 [2][4] - 提出CO-RFT方法,通过分块离线强化学习对VLA模型进行高效微调 [9] - 提出ReinboT,通过强化学习增强机器人视觉-语言操控能力 [12] - 提出Offline Actor-Critic强化学习方法,证明其可扩展至大模型 [14] - 提出Q-Transformer,通过自回归Q函数实现可扩展的离线强化学习 [18][20] - 研究平衡信号与方差,提出用于VLA流模型的自适应离线RL后训练方法 [7] - 提出Perceiver Actor-Critic架构,用于大规模离线强化学习 [17] 在线强化学习与VLA结合 - 提出WMPO方法,基于世界模型的策略优化用于VLA模型 [24][25] - 提出RobustVLA,采用鲁棒性感知的强化后训练方法 [27] - 提出World-Env,利用世界模型作为VLA后训练的虚拟环境 [29][32] - 提出DeepThinkVLA,通过在线强化学习增强VLA模型的推理能力 [31][36] - 提出Self-Improving VLA,通过残差强化学习进行数据生成的自我改进方法 [34][37] - 提出RLinf-VLA,一个统一高效的VLA+RL训练框架 [39][41][48] - 提出VLA-RFT,在世界模拟器中使用已验证奖励进行VLA强化微调 [50] - 提出通过动作分块PPO和自行为克隆进行VLA模型后训练的方法 [52] - 提出VLA-Critic模型,用于机器人现实世界强化学习 [54][56] - 提出Self-Improving Embodied Foundation Models,实现具身基础模型的自我改进 [58][60] - 提出Dual-Actor Fine-Tuning,一种人机交互的对话调整微调方法 [61] - 提出SimpleVLA-RL,通过强化学习扩展VLA训练规模 [63] - 提出RLRC,基于强化学习的压缩VLA模型恢复方法 [65] - 提出TGRPO,通过轨迹级分组相对策略优化微调VLA模型 [70] - 提出RFTF,为具身智能体提供带时序反馈的强化微调 [72] - 实证研究强化学习能为VLA泛化带来什么 [75] - 提出VLA-RL,通过可扩展强化学习实现精通且通用的机器人操控 [77] - 提出Interactive Post-Training方法,用于VLA模型 [79] - 提出SafeVLA,通过约束学习实现VLA模型的安全对齐 [81][82] - 提出GRAPE,通过偏好对齐实现机器人策略泛化 [84] - 提出通过在线强化学习改进VLA模型的方法 [86][88] - 提出RLDG,通过强化学习进行机器人通用策略蒸馏 [90][92] - 提出Policy Agnostic RL,可对任何类别和骨干网络进行离线与在线RL微调 [95] - 提出FLaRe,通过大规模强化学习微调实现精通且自适应的机器人策略 [97] 离线与在线混合强化学习与VLA结合 - 提出GR-RL,为长视野机器人操控实现灵巧与精确 [100] - 提出Discover, Learn, and Reinforce方法,利用多样化的RL生成轨迹扩展VLA预训练 [104] - 提出SRPO,用于VLA模型的自我参考策略优化 [106][108] - 提出ConRFT,通过一致性策略对VLA模型进行强化微调 [110][112] 测试时强化学习与VLA结合 - 提出通过基于模型的搜索改进预训练VLA策略的方法 [112][114] - 提出VLA-Reasoner,通过在线蒙特卡洛树搜索赋予VLA模型推理能力 [117] - 提出Hume,在VLA模型中引入系统2思维 [119] - 提出V-GPS,通过价值引导改进机器人基础模型 [121][122]
在看完近50篇VLA+RL工作之后......
具身智能之心·2025-12-13 16:02