Workflow
3D感知增强
icon
搜索文档
美团 “全能突破”:RoboTron-Mani +RoboData实现通用机器人操作
具身智能之心· 2025-11-11 03:48
文章核心观点 - 美团团队提出的RoboTron-Mani模型与RoboData数据集协同设计,通过“3D感知增强+多模态融合架构”解决了机器人操作领域“通用性”难题 [1] - 该方案突破了传统方案在3D空间感知和数据利用效率上的双重瓶颈,实现了跨数据集、跨机器人、跨场景的通用操作能力 [2][3] - 在多个主流数据集上的实验表明,RoboTron-Mani作为首个通用型策略,其性能超越了一系列专家模型 [17] 机器人操作行业现状与瓶颈 - 现有方案存在核心缺陷:传统多模态模型缺乏3D空间感知能力,物理世界交互精度低且模态融合灵活性差 [2] - 单数据集训练模型泛化能力弱,更换机器人或场景需重新训练,数据收集成本高昂,例如RT-1数据集的13万段数据收集耗时17个月 [2] - 多数据集融合方案存在模态缺失和空间错位问题,导致训练冲突和性能下降 [2] RoboTron-Mani模型架构 - 模型采用四层架构:视觉编码器提取多视角时空特征,为3D感知与模态融合提供基础 [7] - 3D感知适配器采用UVFormer模型,融合图像特征、相机参数与可学习查询,生成统一的3D视图表示以理解物体三维位置与姿态关系 [8] - 特征融合解码器基于OpenFlamingo的交叉注意力机制,引入模态隔离掩码实现多模态的灵活融合与监督 [9] - 多模态解码器针对动作、图像、占用率输出设计专用解码器,确保结果精准性 [10][14] RoboData数据集设计 - 数据集整合了CALVIN、Meta-World、RT-1等9个主流公开数据集,包含7万段任务序列、700万个样本,涵盖多种任务类型 [11] - 通过重新渲染和重建数据,补充了传统数据集缺失的深度图、相机参数等3D相关关键模态 [11] - 实现了3D空间对齐,将所有数据集的坐标系和工作空间范围统一,并采用复合旋转矩阵法统一动作表示 [12][15] - 提供标准化输入输出接口,支持模型在多个数据集上同时评估,为通用模型提供公平的评估基准 [16] 实验性能表现 - 在LIBERO数据集上取得91.7%的成功率,超过当前最佳专家模型QueST的89.8% [17][18] - 在CALVIN数据集上成功率达93.8%,任务平均序列长度从1.7提升至3.5,大幅提升长序列任务能力 [18] - 在RT-1数据集上平均成功率达60%,显著优于同参数规模的其他模型 [18] - 相较于通用模型RoboFlamingo,在4个模拟数据集上的成功率平均提升14.8%-19.6% [18] 关键技术模块价值验证 - 消融实验表明,无3D感知适配器会使CALVIN数据集首任务成功率从94.2%降至85.0% [19] - 无模态隔离掩码会导致跨数据集泛化性能下降12%-15% [22] - 无占用率监督会使长序列任务成功率明显下降,后续任务成功率从56.5%降至48.1% [22] - 使用RoboData对齐数据训练后,LIBERO数据集成功率从64.2%提升至90.7%,CALVIN数据集从74.7%提升至91.0% [20] 方案优势与产业意义 - 该方案兼顾通用性与实用性,为仓储分拣、家庭保洁等追求规模化落地的工业和服务场景提供了重要参考 [21] - 通过全链路设计打破了“机器人操作要么3D感知弱,要么泛化能力差”的僵局 [21] - 未来方向包括加入触觉、力反馈等多模态扩展,优化模型效率以适配边缘计算,以及整合更多真实世界数据集 [23]