ControlVLA
搜索文档
CoRL 2025最新工作!ControlVLA:机器人看10遍就会,“通智大脑”能力再升级!
具身智能之心· 2025-09-25 09:54
文章核心观点 - 北京通用人工智能研究院联合星尘智能提出物体中心表征微调框架ControlVLA,使机器人通过极少量(10-20次)人类示范即可掌握复杂任务,成功率超过75%,相较传统方法提升近4倍 [1] - ControlVLA框架结合预训练VLA模型与物体中心表示,通过ControlNet风格架构实现高效少样本微调,大幅缩短机器人训练时间和成本 [1][5][9] - 该技术在星尘智能AI机器人Astribot S1上验证,在8项现实世界任务中总体成功率达76.7%,长时序任务平均成功率达60%,展现出色泛化与执行能力 [1][15][19] 技术原理与方法 - ControlVLA工作流程分为三步:大规模VLA模型预训练、物体中心表示提取、ControlNet式微调适配 [12] - 通过零初始化投影层将预训练VLA模型与以对象为中心表示连接,在不覆盖先验知识情况下引入物体中心条件 [5][10] - 物体中心表示通过GroundingDINO和SAM2对任务相关物体进行分割与跟踪,提取几何特征与位置特征 [12] 实验成果与性能 - 在8个现实世界任务实验中,每个任务仅使用10-20条演示数据训练,ControlVLA总体成功率达到76.7%,远超传统方法20.8%的水平 [14][15] - 长时序任务(如多物体分类整理、抽屉物体替换)平均成功率达60%,约为现有最佳方法的3倍 [17][19] - 在OrganizeToy任务中,ControlVLA使用20条演示数据即可达到80%成功率,而其他方法即使使用100条演示也未能达到同等表现 [21] 泛化能力与鲁棒性 - 在未见过物体(面包、香蕉、橙子)与新背景下测试,ControlVLA仍保持60%-70%的任务成功率 [24][25] - 该方法提升了对复杂场景、长时序任务以及未见过物体与环境的鲁棒性与扩展性 [10][24] 硬件平台支持 - 研究成果基于星尘智能AI机器人Astribot S1完成,该产品采用绳驱传动技术,传动效率>90%,回驱性>80% [2] - 绳驱模仿人类肌腱运动方式,让机器人具备高表现力与高安全性,适合需要精细触觉反馈的AI任务 [2]