Workflow
顶会收录!机器人刷视频就能学会操作?南科大×逐际动力×港大新成果
机器人大讲堂·2025-09-18 11:46

文章核心观点 - 南方科技大学CLEAR Lab联合逐际动力和香港大学的研究团队提出GVF-TAPE算法 实现机器人通过观看视频学习操作技能 无需人工标注或深度相机 显著提升任务成功率和效率 [1][2][4][5] 技术突破 - GVF-TAPE算法结合生成式视觉预测与任务解耦的姿态估计 使机器人通过视频预测任务执行过程并自主操作 [2][5] - 仅凭RGB图像生成RGB-D视频 无需深度相机 任务成功率平均提升6.78% 降低数据采集成本 [8][10] - 采用"机器人随机探索"训练模式 构建场景-位姿数据库 实现多任务多场景泛化 [11][13] - 使用流匹配技术将单个动作预测时间缩短至0.6秒 实现实时闭环控制 [13][16] 实验验证 - 在LIBERO基准测试中整体平均成功率达83% 比第二名高11.56个百分点 且无需动作标注数据 [18][20] - 真实环境中测试7个任务 包括刚体/柔体/铰接物体操作 成功率从56%提升至86% [19] - LIBERO-Spatial和LIBERO-Object测试成功率分别为95.5%和86.7% [20] 行业应用前景 - 视频数据驱动的训练范式可应用于工厂机器人快速上岗 家庭服务机器人学习新技能 医疗手术机器人提升操作水平 [21] - 逐际动力持续优化技术栈 从分钟级延迟到亚秒级响应 从依赖深度相机到纯视觉生成 以本体探索替代人类示教 [21][22] 研究团队与会议背景 - 成果由南方科技大学CLEAR Lab、逐际动力和香港大学联合研究 入选CoRL 2025(机器人学习顶级会议) [1][2] - CoRL会议关注操作与模仿学习、感知、规划与安全等核心主题 代表领域技术前沿 [1]