抢跑特斯拉,中国团队用视频学习教机器人学会操作
机器人大讲堂·2025-09-28 00:30
视频学习技术突破 - 跨维智能YOTO框架仅需30秒人类演示视频即可训练双臂机器人完成复杂操作 无需动作捕捉或真机数据[1] - 升级版YOTO++框架实现95%任务成功率 能自主识别物体状态并处理随机干扰[2] - 技术通过关键帧序列和运动掩码解决本体差异问题 实现跨机器人平台稳定迁移[5][11] 核心技术方法论 - 采用示教驱动的快速示例增殖技术 通过3D几何变换生成多样化可验证训练样本[7] - 引入视觉对齐模块 利用2D掩膜几何特征估计位姿偏差 实现高频闭环校正[7] - 结合视觉语言大模型(VLM)与扩散策略(BiDP) 形成语义引导与动作生成的协同框架[8][11] 行业应用前景 - 家居服务场景中单次视频输入即可达到≥95%任务成功率 通过连续20次一镜到底压力测试[12][14] - 技术实现新技能0真机快速生成 具备跨场景规模化部署潜力[15] - 可能重塑工业智能化路径 使机器人通过观看历史视频掌握失传工艺[19] 行业技术趋势 - Google等公司探索多模态语言模型与机器人控制结合 强调跨任务泛化能力[8] - Tesla等工业阵营转向视觉驱动数据采集 减少对昂贵动作捕捉系统的依赖[8] - 视频学习框架利用互联网视频和半结构化演示数据 构建分层样本池实现高效训练[9][11]