Workflow
ManualVLA
icon
搜索文档
北大发布 ManualVLA:首个长程「生成–理解–动作」一体化模型,实现从最终状态自主生成说明书并完成操纵
机器之心· 2025-12-18 09:08
研究背景与挑战 - 当前视觉-语言-动作模型在机器人场景理解与操作上展现出通用性,但在需要明确目标终态的长时序任务中,难以兼顾高层规划与精细操控 [2] - 长周期任务面临两大核心难题:一是需要执行精确操作以严格对齐预定义最终状态;二是需要将长周期规划与细粒度控制有效集成,同时保持对多样化现实环境的泛化能力 [9] - 现有依赖人工制作说明书或人类演示视频的分层方法,在泛化到未见过的最终目标状态方面存在局限,难以在系统复杂度、部署成本和泛化性之间取得平衡 [9] ManualVLA 方法概述 - 该模型由北京大学、香港中文大学与至简动力团队提出,旨在解决长时序任务中规划与执行的割裂问题 [3] - 核心创新是构建了全新的「生成–理解–动作」一体化模型,让模型学会自己生成多模态操作说明书,再按说明书去执行动作 [5][12] - 模型摒弃了将高层次规划与动作生成拆分的传统分层方案,构建了全新的通用基础模型 Mixture-of-Transformers 架构,在同一模型中统一多专家模块,实现多模态生成与动作执行的紧密协同 [5] 核心技术:架构与思维链机制 - 模型基于 MoT 架构,集成了「规划专家」和「动作专家」两个模块,实现了多模态手册生成和动作执行之间的连贯协作 [14] - 引入了「说明书思维链」推理机制,该机制通过显式与隐式两条路径影响动作生成 [15] - 显式路径将规划专家预测的目标位置以视觉提示形式叠加在当前图像上,构成带有明显操作区域提示的「提示图」,直接指导动作专家 [19] - 隐式路径将手册生成时产生的内部特征通过专门设计的注意力掩码传递给动作专家,在潜在空间中提供持续的隐式引导 [19] - 消融实验表明,去掉显式或隐式路径中的任一路径都会显著降低长任务中的成功率,说明两者结合才能兼顾精度与稳健性 [19] 三阶段训练策略 - **第一阶段**:基于互联网机器人数据集,筛选与装配和重排相关的轨迹,构建超过 40 万条示例的预训练集,只更新动作专家,学习抓取、搬运和放置技能 [20] - **第二阶段**:利用基于三维高斯表示的数字孪生工具,对乐高板、积木和常见物体进行三维重建,在虚拟空间中合成上万帧带有精确标注的手册数据,用于训练规划专家 [20][23] - **第三阶段**:在真实双臂平台上通过遥操作采集专家示范轨迹,对规划与动作两个专家进行联合微调,使模型在真实环境中的规划–执行闭环更贴合物理世界 [21] 实验性能:真机与仿真 - **真机实验**:在 Franka 双臂平台上测试了 2D 乐高组装、3D 乐高组装和物体重新排列三个长周期任务 [24] - **手册生成质量**:规划专家在 300 个未见过的测试样本上生成了高质量的中间图像,例如 2D 乐高组装的 PSNR 达 29.01,物体重新排列的 FID 分数为 24.46,2D 乐高组装的 MAE 分数为 3.23,证明了生成图像的真实性、保真度和位置预测的精确性 [24][27] - **动作生成成功率**:在所有三个真实世界长周期任务中均取得了最高成功率,相比最强的分层基线,最终任务完成率提高了 15% 到 30%,平均成功率高出 32% [7][28] - **仿真实验**:在 RLBench 的 10 个仿真任务上取得了 70% 的平均成功率,超越了 SOTA 方法 π0 的 63% [31][32] 消融与泛化能力 - 消融实验证明,说明书中所有模态信息和隐式思维链推理对于解决长周期、目标明确的操作任务是不可或缺的,两者结合才能达到最佳性能 [33] - 模型在未见过的背景、物体形状和光照变化下表现出鲁棒的泛化能力,例如在背景变化下任务成功率为 0.65,仅下降 23%,优于基线模型的下降 25% [37]