文章核心观点 - MM-ACT模型通过统一多模态表征、差异化并行解码和上下文共享学习三大创新设计,有效解决了机器人操作领域“通用性”与“高效性”的平衡难题[1][3][27] - 该模型在模拟与真实场景中均展现出超越现有方案的性能,平均成功率高达96.3%,在长序列任务中提升5.0%[13][14] - 模型实现了文本规划、图像预测和动作生成的高效协同,推理延迟低至0.22秒,支持40Hz高频率动作输出[10][19] 技术架构创新 - 采用统一多模态表征空间,将文本、图像、机器人状态与动作编码为离散token,消除模态壁垒[6] - 设计差异化并行解码策略:文本/图像采用重掩码并行解码保证质量,动作采用单步并行解码满足实时需求[8][10] - 创新上下文共享学习范式,通过双阶段训练实现跨模态正向迁移[9][11] 性能表现 - 在LIBERO基准测试中平均成功率96.3%,超越UniVLA(95.5%)和DreamVLA(92.6%)等基线模型[13] - RoboTwin2.0跨域任务平均成功率52.38%,较单动作训练提升9.25%,显著优于To(48.13%)和OpenVLA-OFT(23.13%)[14] - 真实机器人实验在3个实物操作任务中平均成功率72.0%,优于对比模型[15] 跨模态协同价值 - 文本-动作联合训练使动作生成成功率提升3.37%[16][17] - 图像-动作联合训练带来5.62%的成功率提升[16][17] - 三模态联合训练实现1+1+1>3的效果,验证跨模态信息互补性[17] 效率优化 - 单步并行解码配置实现0.22秒推理延迟,平衡效率与精度[19][20] - 动作块大小8的配置支持40Hz高频率动作输出[10][19] - 重掩码解码虽提升精度但耗时增至1.06秒,最终选择单步解码满足实时需求[19] 应用场景拓展 - 在双臂机器人复杂操作场景表现优异,如Place Burger Fries任务成功率73%[22][25] - 自动化文本标注生成70k训练样本,无需人工干预[25] - 为工业分拣、家庭服务等规模化落地场景提供重要技术参考[27]
上交&ai lab团队联合提出MM-ACT:一个统一的VLA模型实现感知-规划-执行的高效协同
具身智能之心·2025-12-02 09:30