文章核心观点 - 帝国理工学院提出的Multi-Task Trajectory Transfer(MT3)技术通过“轨迹分解为对齐-交互两阶段 + 检索式泛化”的创新思路,解决了机器人模仿学习数据效率低下的核心难题 [1] - MT3仅需单条演示即可教会机器人完成单个任务,在不到24小时的人类演示时间内成功掌握1000种不同的日常操作任务,并能泛化到全新物体实例 [1] - 该方法打破了“越多数据越有效”的传统认知,为机器人从实验室走向实际应用提供了全新范式 [23] 当前机器人模仿学习的范式困境 - 当前主流方案陷入“数据效率困境”,单阶段行为克隆平均需175-250次演示/任务,复杂任务甚至需8000次,且泛化能力差 [3] - 传统分解式方法聚焦单任务学习,未系统探索多任务场景下的策略搭配,缺乏灵活的经验复用机制 [3] - 早期检索式方法检索仅用于训练阶段,无法在测试时适配新场景,且依赖单一模态匹配,检索精度有限 [3] MT3的核心设计原理 - 核心设计是将操作轨迹拆分为对齐与交互两阶段,通过语言-几何双模态检索复用历史演示 [4] - 对齐阶段解决“去哪里操作”的定位问题,通过姿态估计和运动规划实现,无需学习复杂路径生成逻辑 [6] - 交互阶段解决“怎么操作”的执行问题,通过直接重放检索到的历史演示轨迹完成精准物体操作 [7] - 采用双模态检索机制:语言过滤从任务描述中提取微技能筛选同类任务,几何匹配利用PointNet++编码器提取物体几何特征计算余弦相似度 [9] - 检索仅在任务开始前执行一次,找到的历史演示同时为对齐阶段提供定位参考、为交互阶段提供轨迹模板,实现跨阶段复用 [10] MT3的技术亮点与性能优势 - 数据效率取得突破,每个任务仅需1条演示即可完成学习 [11] - 泛化能力强劲,对于未见过的物体,通过几何匹配找到同类物体演示,在100个unseen任务上保持68%的成功率 [12] - 扩展效率极高,研究中仅用17小时采集演示就让机器人掌握了1000种任务,涵盖31类宏技能、402种不同物体 [13] - 在低数据场景下性能碾压传统方法,仅用3次演示/任务在seen任务上的成功率就超过其他方法用50次演示的表现 [16] - 整体性能表现优异,seen任务成功率78.25%,unseen任务成功率68%,在包含干扰物体、光照变化、物体随机摆放的复杂环境中仍保持稳定性能 [18] MT3的局限性 - 高精度对齐任务如硬币投入存钱罐插槽,对齐阶段的姿态估计误差无法通过开环交互弥补,成功率仅30%左右 [20] - 变形物体操作如将书插入背包,不同变形物体的动态特性无法通过视觉几何推断,轨迹重放易失败 [20] - 检索匹配失败场景如刷卡支付,物体关键特征过小时全局几何匹配无法识别,导致检索到不匹配的演示 [20] 关键结论与行业意义 - 轨迹分解是低数据学习的关键,将操作任务拆分为对齐-交互两阶段比单阶段学习数据效率提升一个数量级 [22] - 检索泛化比模型泛化更高效,在少量演示场景下直接复用历史经验比学习通用模型更可靠 [22] - 千任务学习无需复杂模型,为机器人规模化应用提供了低成本方案,对家庭服务、仓储物流等需要快速适配多种任务的场景极具落地价值 [22][23]
登上Science Robotic!一天学习1000个任务,内燃机的风还是吹到了机器人
具身智能之心·2025-11-17 00:47