深扒PI*0.6迭代式强化学习来源:VLA+在线RL实现具身进化
自动驾驶之心·2025-12-13 02:04

文章核心观点 - 视觉-语言-动作模型与在线强化学习的结合已成为具身智能领域极具前景的研究方向,能够使机器人通过自我探索实现能力进化,超越单纯模仿学习的局限 [3][8] - 星动纪元提出的iRe-VLA方法通过“分而治之,动静结合”的两阶段循环迭代流程,率先突破了VLA模型应用强化学习的困境,其工作被Physical Intelligence的π0.6研究所引用,代表了该方向的前沿进展 [3][16][17][22] - iRe-VLA方法在仿真与真实世界实验中均展现出显著优势,包括训练稳定性高、能有效学习新任务并提升泛化能力,同时通过合理的算力分配兼顾了经济性与实用性 [44][46][48][57][63] 一、VLA+RL的重要性与难点 - 重要性:仅靠模仿学习无法应对未见情况或数据不完美,机器人难以达到鲁棒、持久工作;在线强化学习允许智能体通过试错发现更优解,是实现能力突破的关键 [8] - 应用难点: - 环境差异:物理世界任务周期长、奖励稀疏,学习困难 [21] - 模型稳定性:直接对数十亿参数的VLA模型进行在线强化学习易导致灾难性遗忘或训练崩溃 [21] - 算力负担:对大规模模型进行全量梯度更新超出本地机器人控制器的算力极限 [21] 二、行业解决方案与iRe-VLA的创新 - 行业解决方案类型: - 外挂式干预:如V-GPS、DSRL,通过外部价值函数或噪声引导冻结的VLA,但模型本身未发生质变 [22] - 暴力美学:如VLAC,直接用PPO等算法全量微调VLA,易导致模型坍塌且算力要求高 [22] - 探索到内化的循环:以iRe-VLA为代表,利用监督微化将强化学习探索出的高价值行为内化为模型的原生能力 [15][22] - iRe-VLA模型架构:模型由负责理解与决策的VLM主干(大脑)和负责输出控制信号的轻量级Action Head(四肢)组成,并使用LoRA技术提高微调效率 [19][20] - 核心两阶段循环流程: - 第一阶段(在线强化学习-探索):冻结VLM主干参数,仅训练轻量级的Action Head和Critic Head,使机器人能在本地(如单张4090显卡)稳定探索并发现成功轨迹 [25][29][31] - 第二阶段(监督学习-内化):解冻VLM主干,对整个模型进行全参数微调,训练数据混合了新的成功轨迹与原始专家数据,此阶段通常在云端服务器进行,以将新技能固化并防止遗忘旧技能 [32][37][39] 三、实验结果与分析 - 训练稳定性:直接使用PPO微调VLA会导致成功率曲线剧烈震荡甚至性能下降,而iRe-VLA的曲线稳步上升,证明了分阶段冻结参数策略对稳定训练至关重要 [46] - 仿真环境性能: - 在MetaWorld基准测试中,iRe-VLA在多项任务上成功率显著超越SFT和PPO-Replay方法,例如将Button-Press-new任务成功率从56%提升至100%,在未见的10个任务上成功率从51%提升至80% [48][50] - 在Franka Kitchen环境中,iRe-VLA同样表现优异,例如将Slide-door-open任务成功率从86%提升至99%,将Left-door-open任务成功率从43%提升至83% [50] - 真实世界性能: - 在抓取未见物体(如茄子、胡萝卜)的任务中,仅靠专家数据微调的模型初始成功率约为35%,经过iRe-VLA在线学习后,抓取成功率提升至80% [54][57] - 模型展现出泛化能力,抓取完全未参与训练的第三类物体时,成功率也从37%提升至61% [57] - 消融实验:证明第二阶段解冻VLM主干是必要的,否则模型性能提升会遇到瓶颈,解冻能利用大模型的深层特征表示能力来掌握复杂技能并提升泛化性 [56][58] 四、结论与意义 - 方法优势: - 稳定性:解决了大模型直接进行强化学习容易训练崩溃的问题 [63] - 经济性:巧妙分配算力,本地进行轻量级探索,云端负责重量级消化,符合实际部署场景 [63] - 持续学习:使机器人能在不遗忘旧技能的前提下,通过自我探索不断掌握新物体和新任务的操作技能 [63] - 行业前景:iRe-VLA与π0.6等研究揭示了VLA在线强化学习技术的发展前景,未来研究方向包括高效探索、稀疏奖励下的学习以及大规模VLA的稳定可扩展RL算法等 [62]