Workflow
基于优势条件策略的经验与纠偏强化学习
icon
搜索文档
“最强具身VLA大模型”,究竟强在哪儿?
量子位· 2025-11-20 00:30
模型性能与突破 - Physical Intelligence公司推出的机器人基础模型π*0.6在多项现实任务中表现出色,例如连续一整天制作意式浓缩咖啡和数小时折叠衣物,任务成功率均达到90%以上[2][28] - 在最具挑战性的任务(如折叠多样化衣物和制作咖啡)中,其采用的RECAP方法将任务吞吐量(每小时成功次数)提升了一倍以上,并将任务失败率降低了约2倍,相比仅进行监督微调的模型有显著提升[27] - 模型展现出极高的稳定性,能够连续13小时制作咖啡、连续2小时折叠衣物而无需人为重置[28] 核心技术:RECAP方法 - π*0.6的核心突破在于引入了一种名为RECAP(基于优势条件策略的经验与纠偏强化学习)的通用训练方法,该方法彻底改变了机器人只会逼近“真值”的模仿学习模式,使其能从自身错误中成长[3][10] - RECAP方法包含三个阶段:指导(用人类示范教基础动作)、辅导(通过纠错指导修正错误)、练习(从自主经验中不断优化)[7][12] - 该方法采用“优势条件化”策略,通过价值函数判断动作质量,再将策略更新转化为大模型擅长的监督学习问题,从而避免了传统策略梯度算法(如PPO、REINFORCE)在异构机器人数据和Flow Matching动作生成模型上的不适用性[15][16][17][18][19] 模型架构与训练 - π*0.6是Physical Intelligence公司最新的视觉-语言-动作模型,其Backbone从之前模型的Gemma(2.6B参数)升级到Gemma3(4B参数),动作专家模型的参数量也增至860M[8][25] - 模型架构延续了前代设计,通过流匹配和离散动作token输出生成动作片段[26] - 训练过程分为离线强化学习(基于多机器人、多任务的示范数据训练)、微调(用人类示范适配具体任务)和在线阶段(机器人自主执行任务并结合专家纠偏更新)[20] 从错误中学习的能力 - RECAP方法最具启发性的特点是让机器人能够从失败经验中学习,通过专家纠错和强化学习相结合的方式,解决了传统模仿学习在持续互动系统中因滚雪球式误差导致任务失败的关键障碍[29][36][37][38] - 该方法通过训练价值函数来应对信用分配挑战,价值函数能预测状态优劣,从而识别导致好结果或坏结果的关键动作,为模型提供判断信号[45][47][50][51][52] - 优势条件化训练使模型能在保留所有经验(包括成功和失败)的前提下,从失败中学习,其表现因此超越了单纯依赖示范数据的水平[54][55]