Workflow
具身思维链(ECoT)
icon
搜索文档
最火VLA,看这一篇综述就够了
36氪· 2025-10-31 08:22
文章核心观点 - 视觉-语言-动作模型成为ICLR 2026的热点领域,相关投稿量从去年的个位数飙升至164篇,增长18倍[5] - VLA的核心是让机器人具备“听懂人话、看懂世界、动手干活”的能力,正成为AI领域极具吸引力的前沿阵地[5] - 学术界对VLA的定义趋于明确:必须使用经过大规模、互联网级别视觉-语言数据预训练的骨干模型,代表模型包括Google的PaLI-X及开源项目Llava、Florence-2等[5] VLA概念界定与区分 - VLA强调模型“基因”,必须继承自强大的视觉语言模型,具备通过图文预训练习得的语言理解、视觉泛化和任务迁移能力[5] - 与“多模态策略”区分:简单拼接独立视觉编码器和文本编码器的模型不应称为VLA[6] - 与大型行为模型区分:LBM强调在“大规模、多任务的机器人演示数据”上训练,而VLA强调预训练骨干;一个在机器人数据上微调的VLA可同时是LBM,但LBM不一定是VLA[6] VLA架构创新趋势 - 离散扩散模型成为新范式,可并行生成整个动作序列,减少前向传播次数,提高推理效率,在LIBERO评测中表现近乎饱和[7][10] - 动作分词器技术进展包括FASTer Tokenizer结合残差矢量量化,以及OmniSAT借助B样条曲线对动作建模,提升精度与稳定性[14][16][21] - 效率优化方法如HyperVLA采用超网络机制提升推理效率,AutoQVLA采用智能量化压缩模型体积,大幅降低硬件门槛[19][21] 机器人推理与学习能力提升 - 具身思维链模式让机器人先生成中间推理步骤再行动,增强计划与解释能力,在复杂场景中显著提升泛化能力[11] - 强化学习作为微调利器重新登场,代表作在LIBERO和SIMPLER上分别取得99%和98%的成功率[17][18] - 视频预测技术赋予VLA物理直觉,通过增加未来帧预测任务或微调视频生成大模型来提升对物理世界的理解[20][23] 评测基准与通用化挑战 - 新评测基准如《RoboCasa365》提供365种任务和超2000个厨房场景,《WorldGym》提出用生成式世界模型作为评测环境,推动研究走向更有意义的泛化能力[24][26] - 主流仿真评测存在“性能天花板”问题,模型仿真得分高但难以转化为现实能力,原因包括数据鸿沟、评测维度差异和资源迭代差距[30][34] - 通用化架构创新包括《X-VLA》使用软提示学习特定“适配器”,《XR-1》提出统一视觉-运动编码,《HIMOE-VLA》采用层级式混合专家架构以适应不同机器人硬件[27][29][34] 未来研究方向 - 数据质量重要性超过数据量,数据中的噪声、歧义和次优行为可能限制模型上限[31] - 上下文学习机制能否迁移到机器人领域,被认为是通用VLA的潜在突破口[31]