深扒PI π*0.6迭代式强化学习思路:VLA+在线RL,实现自我进化
具身智能之心·2025-12-07 03:03

文章核心观点 - 视觉-语言-动作模型与在线强化学习的结合已成为具身智能领域极具前景的研究方向,能够解决仅靠监督微调面临的泛化性与鲁棒性不足的问题 [3][4] - 星动纪元的iRe-VLA方法通过“分阶段冻结参数、动静结合”的两阶段迭代循环,率先突破了VLA模型应用强化学习的困境,并被海外顶尖研究团队Physical Intelligence的π0.6工作引用 [15][17][23] - iRe-VLA方法在仿真与真实世界实验中均展现出显著优势,包括更高的任务成功率、卓越的训练稳定性、强大的泛化能力以及符合实际部署的经济性 [45][47][49][58][65] 为什么VLA+RL很重要 - 仅依赖模仿人类专家数据的监督微调方法存在局限,当机器人遇到未见情况或数据不完美时会不知所措,难以实现鲁棒、持久的工作 [6][9] - 在线强化学习允许智能体通过试错发现更优解,有望超越演示数据专家的水平,而离线强化学习则受限于演示数据的质量 [9] 强化学习应用在VLA的三大难点 - 环境差异:物理世界任务周期长、奖励稀疏,学习困难,不同于在离线数据集上训练的聊天机器人 [22] - 模型坍塌与不稳定性:直接对数十亿参数的VLA模型进行在线强化学习,极易出现灾难性遗忘或训练崩溃 [22] - 算力负担:在本地机器人控制器上对大规模模型进行全量梯度更新,硬件要求通常超出极限 [22] 行业解决VLA强化学习困境的三种路径 - 外挂式干预:训练额外价值函数或小型RL策略来引导冻结的VLA生成动作,VLA本身未发生质变 [23] - 暴力美学:直接使用PPO等算法全量微调VLA,易导致模型坍塌且算力要求高 [23] - 从探索到内化的循环:以iRe-VLA为代表,利用监督微调将RL探索出的高价值行为内化为模型的原生能力,是更可行的方案 [16][23] 星动纪元iRe-VLA方法详解 - 模型架构:VLA模型由负责理解的预训练VLM主干(大脑)和负责输出控制信号的轻量级动作头(四肢)组成,并使用LoRA技术提高微调效率 [20][21] - 核心流程-第一阶段(在线强化学习):冻结VLM主干参数,仅训练动作头和一个评价网络,使机器人能在本地(如单张4090显卡)稳定探索并发现成功轨迹 [26][30][32] - 核心流程-第二阶段(监督学习):解冻VLM主干,混合使用新探索的成功轨迹与原始专家数据,对整个模型进行微调,将新技能固化并防止遗忘 [33][40] - 迭代循环:两个阶段循环往复,实现“小参数探索,全参数内化”的持续学习过程 [38][42] 实验结果与分析 - 训练稳定性:iRe-VLA训练曲线稳步上升,而直接使用PPO微调VLA则成功率曲线震荡剧烈,甚至性能下降 [47] - 仿真环境性能:在MetaWorld基准测试中,iRe-VLA在多项任务上成功率显著超越SFT和PPO-Replay方法,例如Button-Press-new任务从SFT的56%提升至100% [49][51] - 真实世界性能:在抓取未见物体任务中,iRe-VLA将成功率从SFT的约35%提升至80%,并且对完全未参与训练的第三类物体,抓取成功率也从37%提升至61%,展现了强大的泛化能力 [52][55][58] - 消融实验必要性:实验证明,若第二阶段不解冻VLM主干,模型性能提升将遇到瓶颈,说明利用大模型深层特征表示能力对掌握复杂技能至关重要 [59] 结论与意义 - iRe-VLA方法为解决大模型在机器人控制中落地难的问题提供了切实可行的方案,其优势体现在训练稳定性、算力分配的经济性以及持续学习能力上 [61][65] - 该工作与海外PI的π0.6研究共同揭示了VLA在线强化学习技术的发展前景,未来研究方向包括高效探索、稀疏奖励下的学习以及大规模VLA的稳定RL算法构建等 [63]