顶会收录！机器人刷视频就能学会操作？南科大×逐际动力×港大新成果

文章核心观点 - 南方科技大学CLEAR Lab联合逐际动力和香港大学的研究团队提出GVF-TAPE算法实现机器人通过观看视频学习操作技能无需人工标注或深度相机显著提升任务成功率和效率 [1][2][4][5] 技术突破 - GVF-TAPE算法结合生成式视觉预测与任务解耦的姿态估计使机器人通过视频预测任务执行过程并自主操作 [2][5] - 仅凭RGB图像生成RGB-D视频无需深度相机任务成功率平均提升6.78% 降低数据采集成本 [8][10] - 采用"机器人随机探索"训练模式构建场景-位姿数据库实现多任务多场景泛化 [11][13] - 使用流匹配技术将单个动作预测时间缩短至0.6秒实现实时闭环控制 [13][16] 实验验证 - 在LIBERO基准测试中整体平均成功率达83% 比第二名高11.56个百分点且无需动作标注数据 [18][20] - 真实环境中测试7个任务包括刚体/柔体/铰接物体操作成功率从56%提升至86% [19] - LIBERO-Spatial和LIBERO-Object测试成功率分别为95.5%和86.7% [20] 行业应用前景 - 视频数据驱动的训练范式可应用于工厂机器人快速上岗家庭服务机器人学习新技能医疗手术机器人提升操作水平 [21] - 逐际动力持续优化技术栈从分钟级延迟到亚秒级响应从依赖深度相机到纯视觉生成以本体探索替代人类示教 [21][22] 研究团队与会议背景 - 成果由南方科技大学CLEAR Lab、逐际动力和香港大学联合研究入选CoRL 2025（机器人学习顶级会议） [1][2] - CoRL会议关注操作与模仿学习、感知、规划与安全等核心主题代表领域技术前沿 [1]