“最强具身VLA大模型”,究竟强在哪儿?
36氪·2025-11-20 07:38
模型性能与突破 - 机器人基础模型π0.6在执行制作意式浓缩咖啡、折叠衣物、组装包装纸箱等任务时,成功率均达到90%以上[1] - 模型表现出极高的稳定性,能够连续13小时制作咖啡、连续2小时折叠衣物而无需人为重置[23] - 在最难的任务中,RECAP方法将任务吞吐量提高了一倍以上,并将任务失败率降低了约2倍,相比于仅进行监督微调的模型[20] 核心方法与技术 - π0.6的核心贡献在于提出了一种通用训练方法RECAP,即基于优势条件策略的经验与纠偏强化学习[8] - RECAP方法包含三个阶段:离线强化学习、使用人类示范进行微调、以及结合自主经验和专家在线纠偏的在线阶段[10] - 该方法采用“优势条件化”策略,通过价值函数判断动作质量,再将策略更新转化为大模型擅长的监督学习问题,而非传统的策略梯度方法[13] - 模型架构方面,π0.6的Backbone从Gemma扩展到Gemma3,参数量达4B,Action Expert参数量升级到860M[20] 学习机制创新 - RECAP方法彻底扭转了机器人只会逼近"真值"的模仿学习模式,让机器人能从自己的错误中成长[3] - 该方法通过教练式纠偏,当机器人犯错时专家示范如何恢复,弥补了传统模仿数据的不足,是防止错误累积的关键[27][28] - 通过训练价值函数来解决信用分配问题,帮助机器人识别关键步骤与错误来源,使其具备从经验中变强的能力[31][39] - 优势条件化训练让模型在保留全部经验的前提下,从失败中学习,表现超越单纯示范数据的水平[42]