Workflow
Human2Robot
icon
搜索文档
AAAI 2026 Oral | 机器人也能“看人学活”?一次示范就能学会新任务!
具身智能之心· 2025-12-12 01:22
研究背景与问题 - 从人类示范中学习是机器人执行任务的一种潜力巨大的方式 但现有方法通常依赖粗对齐的视频对 只能学习全局或任务级别的特征 忽略了复杂操作和泛化所需的细粒度帧级动态信息[3] - 现有模型在已见任务上表现良好 但面对人类展示的从未见过的新任务时表现不佳 原因在于主流方法依赖粗糙的人机视频对齐 机器人只能大概知道人在干什么 却不知道人手具体如何动作[8] - 数据不够精细导致模型学不到关键动作细节 许多方法将整段视频压缩成固定长度向量 丢失了细节 使得模型无法理解动作间的微小差别 从而缺乏真正的泛化能力[8] 解决方案与核心创新 - 复旦大学和上海创智学院提出了一种范式转变 将细粒度的人机动作对齐视为一个条件视频生成问题[3] - 核心创新是让机器人看着人类做 然后脑补出自己应该怎么做 即直接生成一段对应的机器人操作视频 该方法要求模型逐帧预测机器人下一步如何移动 从而在生成过程中学会动作细节和理解操作逻辑[8] - 为支持该方法 研究团队引入了一个全新的第三人称数据集H&R 该数据集包含2,600段通过VR远程操控系统采集的精准同步的人类和机器人动作视频 涵盖4类基础任务和6类复杂长程任务[3][9] Human2Robot技术框架 - 该方法分为两个阶段 第一阶段是视频预测 机器人看到人类操作时 模型直接生成一段机器人应该如何动作的视频 模型先学会生成单帧 再进阶训练整个视频以掌握完整的动作演化过程[12][13][14] - 视频预测模型包含三个关键组件 Spatial UNet负责捕捉机械臂形状和手部动作等关键信息 Spatial-Temporal UNet负责理解动作连贯性并学会逐帧预测的时间关系 Behavior Extractor负责提取人手的位置、速度和方向等运动线索[15] - 第二阶段是动作解码 由于视频渲染速度慢不适合实时操作 因此只取一次去噪后的中间特征 这些特征已包含机械臂下一步的位置、动作趋势和物体相对关系 然后训练一个动作解码器来输出机器人的关节角或位姿[16][21] 实验结果与性能 - 在已见任务上 Human2Robot方法在所有任务上均取得最高成功率 对比基线方法DP、XSkill和VPP Human2Robot保持超过10–20个百分点的优势[20] - 具体数据表明 在Push & Pull任务上Human2Robot成功率为100% 在Pick & Place任务上为90% 在Rotation任务上为90% 平均成功率为93%[19] - 引入KNN推断的Human2Robot在所有任务上仍优于各基线方法 相比完整版本 KNN策略仅带来约10–20%的成功率下降 处于可接受范围内[20] 泛化能力评估 - 该方法能够实现对新的位置、物体、实例 甚至全新任务类别的一次性泛化 对于一个没见过的任务 只需要给一段人类完成任务的视频 即可让机器人完成这个任务[4] - 在六类泛化设置中 Human2Robot在位置、外观、实例与背景变化下均保持领先 并能完成组合任务与全新任务 而XSkill与VPP在后两者上均失败[27] - 泛化优势被认为源于H&R数据集提供的明确人机动作对应关系 以及视频条件提供的细粒度动态信息 这使得策略具备了跨任务泛化能力[27] 消融研究与有效性验证 - 测试了直接从人类视频预测机器人动作的方式 该方法平均成功率仅为23% 动作执行抖动明显 对抓取等关键行为不敏感 说明仅依靠人类视频推断机器人动作映射较为困难[25] - 为验证视频生成预训练的必要性 设计了未进行预训练的变体 结果显示该方法几乎无法完成任务 最简单的推拉任务成功率仅为20% 抓取放置任务仅为10% 证明视频预训练对于建立动作先验至关重要[26] - 可视化分析表明 仅经过一步去噪的预测已包含足够的动作信息 可有效支持后续的动作规划 30步去噪结果与真实机器人视频高度一致 验证了所提出视频预测模型架构的有效性[24]