Workflow
通用机器人操作
icon
搜索文档
美团 “全能突破”:RoboTron-Mani +RoboData实现通用机器人操作
具身智能之心· 2025-11-12 00:03
文章核心观点 - 美团团队提出的RoboTron-Mani模型与RoboData数据集协同设计,通过“3D感知增强+多模态融合架构”与统一数据标准,解决了机器人操作领域长期存在的3D空间感知能力弱与跨平台泛化能力差的双重瓶颈,实现了跨数据集、跨机器人、跨场景的通用型机器人操作,并在多项基准测试中超越了专家模型 [1][3][21] 机器人操作领域的现状与瓶颈 - 现有机器人操作方案存在双重瓶颈:传统多模态模型聚焦2D图像理解,缺乏3D空间感知,导致物理世界交互精度低;单数据集训练模型泛化能力弱,更换机器人或场景需重新训练,数据收集成本高,例如RT-1数据集的13万段数据耗时17个月收集;多数据集融合方案则存在模态缺失和空间坐标与动作表示不统一的问题,导致训练冲突和性能下降 [2] RoboTron-Mani模型的核心设计 - 模型采用四层架构,包括视觉编码器、3D感知适配器、特征融合解码器和多模态解码器,支持文本、图像、相机参数等多源输入,输出动作、图像、占用率等多模态结果 [5][7] - 3D感知适配器采用UVFormer模型,融合图像特征、相机参数与可学习查询,生成统一的3D视图表示,以精准理解物体的三维位置与姿态关系 [8] - 特征融合解码器基于OpenFlamingo的交叉注意力机制,并引入模态隔离掩码,实现了多模态的灵活融合与监督,训练时支持辅助模态监督,推理时可省略不必要模态 [9] - 多模态解码器针对不同输出类型设计专用解码器,包括图像解码器、占用率解码器和动作解码器,确保输出结果的精准性 [10][14] RoboData数据集的核心设计 - 数据集整合了CALVIN、Meta-World、RT-1等9个主流公开数据集,包含7万段任务序列、700万个样本,涵盖多种操作任务 [11] - 针对传统数据集模态缺失问题,通过重新渲染模拟环境、重建原始数据等方式,补充了深度图、相机参数等3D感知关键信息 [11] - 实现了空间与动作对齐:将所有数据集的3D坐标系统一为“X轴向右、Y轴向前、Z轴向上”,工作空间范围统一为[-0.5,-0.5,0]至[0.5,0.5,1];采用复合旋转矩阵法统一了不同数据集的动作表示 [12][15] - 提供了统一的评估体系,支持模型在多个数据集上同时评估,为通用机器人操作模型提供了公平的基准 [16] 实验结果与性能表现 - 在LIBERO数据集上,RoboTron-Mani的成功率达到91.7%,超过了当前最佳专家模型QueST的89.8% [17][18] - 在CALVIN数据集上,成功率达到93.8%,任务平均序列长度从1.7提升至3.5,大幅提升了长序列任务能力 [17][18] - 在RT-1数据集上,平均成功率达到60%,显著优于同参数规模的其他模型 [17][18] - 在跨数据集泛化测试中,相较于通用模型RoboFlamingo,在4个模拟数据集上的成功率平均提升14.8%-19.6% [18] 关键模块的消融实验验证 - 禁用3D感知适配器后,CALVIN数据集首任务成功率从94.2%降至85.0%,证明其对于空间感知精度至关重要 [19] - 无模态隔离掩码时,模型的多模态融合灵活性降低,跨数据集泛化性能下降12%-15% [22] - 无占用率监督时,长序列任务成功率下降明显,后续任务成功率从56.5%降至48.1%,证明3D空间信息对复杂操作的重要性 [19][22] 数据对齐的价值验证 - 使用经过RoboData对齐的数据训练后,模型性能显著提升:在LIBERO数据集上成功率从64.2%提升至90.7%;在CALVIN数据集上从74.7%提升至91.0% [20][23] - 使用未对齐数据训练时,除动作表示简单的Meta-World数据集外,其他数据集成功率平均下降25%-30%,证明数据对齐是跨平台训练的基础 [23] 方案的产业意义与未来方向 - 该方案为追求规模化落地的工业和服务场景提供了兼顾通用性与实用性的参考,有望应用于仓储分拣、家庭保洁等领域 [21] - 未来方向包括:扩展触觉、力反馈等多模态输入;通过模型轻量化、量化优化效率;进一步整合更多真实世界数据集以减少模拟到真实的域迁移差距 [23]