RoboData
搜索文档
美团 “全能突破”:RoboTron-Mani +RoboData实现通用机器人操作
具身智能之心· 2025-11-12 00:03
文章核心观点 - 美团团队提出的RoboTron-Mani模型与RoboData数据集协同设计,通过“3D感知增强+多模态融合架构”与统一数据标准,解决了机器人操作领域长期存在的3D空间感知能力弱与跨平台泛化能力差的双重瓶颈,实现了跨数据集、跨机器人、跨场景的通用型机器人操作,并在多项基准测试中超越了专家模型 [1][3][21] 机器人操作领域的现状与瓶颈 - 现有机器人操作方案存在双重瓶颈:传统多模态模型聚焦2D图像理解,缺乏3D空间感知,导致物理世界交互精度低;单数据集训练模型泛化能力弱,更换机器人或场景需重新训练,数据收集成本高,例如RT-1数据集的13万段数据耗时17个月收集;多数据集融合方案则存在模态缺失和空间坐标与动作表示不统一的问题,导致训练冲突和性能下降 [2] RoboTron-Mani模型的核心设计 - 模型采用四层架构,包括视觉编码器、3D感知适配器、特征融合解码器和多模态解码器,支持文本、图像、相机参数等多源输入,输出动作、图像、占用率等多模态结果 [5][7] - 3D感知适配器采用UVFormer模型,融合图像特征、相机参数与可学习查询,生成统一的3D视图表示,以精准理解物体的三维位置与姿态关系 [8] - 特征融合解码器基于OpenFlamingo的交叉注意力机制,并引入模态隔离掩码,实现了多模态的灵活融合与监督,训练时支持辅助模态监督,推理时可省略不必要模态 [9] - 多模态解码器针对不同输出类型设计专用解码器,包括图像解码器、占用率解码器和动作解码器,确保输出结果的精准性 [10][14] RoboData数据集的核心设计 - 数据集整合了CALVIN、Meta-World、RT-1等9个主流公开数据集,包含7万段任务序列、700万个样本,涵盖多种操作任务 [11] - 针对传统数据集模态缺失问题,通过重新渲染模拟环境、重建原始数据等方式,补充了深度图、相机参数等3D感知关键信息 [11] - 实现了空间与动作对齐:将所有数据集的3D坐标系统一为“X轴向右、Y轴向前、Z轴向上”,工作空间范围统一为[-0.5,-0.5,0]至[0.5,0.5,1];采用复合旋转矩阵法统一了不同数据集的动作表示 [12][15] - 提供了统一的评估体系,支持模型在多个数据集上同时评估,为通用机器人操作模型提供了公平的基准 [16] 实验结果与性能表现 - 在LIBERO数据集上,RoboTron-Mani的成功率达到91.7%,超过了当前最佳专家模型QueST的89.8% [17][18] - 在CALVIN数据集上,成功率达到93.8%,任务平均序列长度从1.7提升至3.5,大幅提升了长序列任务能力 [17][18] - 在RT-1数据集上,平均成功率达到60%,显著优于同参数规模的其他模型 [17][18] - 在跨数据集泛化测试中,相较于通用模型RoboFlamingo,在4个模拟数据集上的成功率平均提升14.8%-19.6% [18] 关键模块的消融实验验证 - 禁用3D感知适配器后,CALVIN数据集首任务成功率从94.2%降至85.0%,证明其对于空间感知精度至关重要 [19] - 无模态隔离掩码时,模型的多模态融合灵活性降低,跨数据集泛化性能下降12%-15% [22] - 无占用率监督时,长序列任务成功率下降明显,后续任务成功率从56.5%降至48.1%,证明3D空间信息对复杂操作的重要性 [19][22] 数据对齐的价值验证 - 使用经过RoboData对齐的数据训练后,模型性能显著提升:在LIBERO数据集上成功率从64.2%提升至90.7%;在CALVIN数据集上从74.7%提升至91.0% [20][23] - 使用未对齐数据训练时,除动作表示简单的Meta-World数据集外,其他数据集成功率平均下降25%-30%,证明数据对齐是跨平台训练的基础 [23] 方案的产业意义与未来方向 - 该方案为追求规模化落地的工业和服务场景提供了兼顾通用性与实用性的参考,有望应用于仓储分拣、家庭保洁等领域 [21] - 未来方向包括:扩展触觉、力反馈等多模态输入;通过模型轻量化、量化优化效率;进一步整合更多真实世界数据集以减少模拟到真实的域迁移差距 [23]
美团 “全能突破”:RoboTron-Mani +RoboData实现通用机器人操作
具身智能之心· 2025-11-11 03:48
文章核心观点 - 美团团队提出的RoboTron-Mani模型与RoboData数据集协同设计,通过“3D感知增强+多模态融合架构”解决了机器人操作领域“通用性”难题 [1] - 该方案突破了传统方案在3D空间感知和数据利用效率上的双重瓶颈,实现了跨数据集、跨机器人、跨场景的通用操作能力 [2][3] - 在多个主流数据集上的实验表明,RoboTron-Mani作为首个通用型策略,其性能超越了一系列专家模型 [17] 机器人操作行业现状与瓶颈 - 现有方案存在核心缺陷:传统多模态模型缺乏3D空间感知能力,物理世界交互精度低且模态融合灵活性差 [2] - 单数据集训练模型泛化能力弱,更换机器人或场景需重新训练,数据收集成本高昂,例如RT-1数据集的13万段数据收集耗时17个月 [2] - 多数据集融合方案存在模态缺失和空间错位问题,导致训练冲突和性能下降 [2] RoboTron-Mani模型架构 - 模型采用四层架构:视觉编码器提取多视角时空特征,为3D感知与模态融合提供基础 [7] - 3D感知适配器采用UVFormer模型,融合图像特征、相机参数与可学习查询,生成统一的3D视图表示以理解物体三维位置与姿态关系 [8] - 特征融合解码器基于OpenFlamingo的交叉注意力机制,引入模态隔离掩码实现多模态的灵活融合与监督 [9] - 多模态解码器针对动作、图像、占用率输出设计专用解码器,确保结果精准性 [10][14] RoboData数据集设计 - 数据集整合了CALVIN、Meta-World、RT-1等9个主流公开数据集,包含7万段任务序列、700万个样本,涵盖多种任务类型 [11] - 通过重新渲染和重建数据,补充了传统数据集缺失的深度图、相机参数等3D相关关键模态 [11] - 实现了3D空间对齐,将所有数据集的坐标系和工作空间范围统一,并采用复合旋转矩阵法统一动作表示 [12][15] - 提供标准化输入输出接口,支持模型在多个数据集上同时评估,为通用模型提供公平的评估基准 [16] 实验性能表现 - 在LIBERO数据集上取得91.7%的成功率,超过当前最佳专家模型QueST的89.8% [17][18] - 在CALVIN数据集上成功率达93.8%,任务平均序列长度从1.7提升至3.5,大幅提升长序列任务能力 [18] - 在RT-1数据集上平均成功率达60%,显著优于同参数规模的其他模型 [18] - 相较于通用模型RoboFlamingo,在4个模拟数据集上的成功率平均提升14.8%-19.6% [18] 关键技术模块价值验证 - 消融实验表明,无3D感知适配器会使CALVIN数据集首任务成功率从94.2%降至85.0% [19] - 无模态隔离掩码会导致跨数据集泛化性能下降12%-15% [22] - 无占用率监督会使长序列任务成功率明显下降,后续任务成功率从56.5%降至48.1% [22] - 使用RoboData对齐数据训练后,LIBERO数据集成功率从64.2%提升至90.7%,CALVIN数据集从74.7%提升至91.0% [20] 方案优势与产业意义 - 该方案兼顾通用性与实用性,为仓储分拣、家庭保洁等追求规模化落地的工业和服务场景提供了重要参考 [21] - 通过全链路设计打破了“机器人操作要么3D感知弱,要么泛化能力差”的僵局 [21] - 未来方向包括加入触觉、力反馈等多模态扩展,优化模型效率以适配边缘计算,以及整合更多真实世界数据集 [23]