文章核心观点 - 千寻智能研究人员提出一种名为State-free Policy的视觉运动策略,该策略在输入中完全移除机器人自身状态信息,仅依赖视觉观察,从而显著提升机器人的空间泛化能力 [1][3][10] - 该方法基于两个关键条件:动作在相对末端执行器空间中表示,以及确保视觉输入能够覆盖任务所需的完整观察范围 [11][13] - 实验证明State-free Policy在夹笔、叠衣服、取饮料等任务中展现出强大的空间泛化能力,高度泛化测试成功率从0提升至0.98,水平泛化测试成功率从0提升至0.58 [14][17] - 该方法还具备更高的数据利用效率和更快的跨本体泛化优势,在数据量减少时性能下降幅度远小于基于状态的策略 [20][21] State-free Policy技术原理 - 策略输入中完全移除状态信息,仅依赖视觉观察,状态信息包括末端执行器位置、关节角度等自身感知数据 [10][11] - 采用相对末端动作空间,模型预测末端执行器应进行的相对移动而非绝对位置,降低对全局位置信息的依赖 [11] - 通过配备更广阔的视野确保完整的任务观察,相机系统由头顶主摄和腕部广角相机构成,提供末端执行器上下方视野 [13] - 研究发现移除顶置主摄可进一步提高空间泛化能力,仅使用双广角腕部相机的策略在挑战性情景下成功率更高 [22][23] 真机实验成果 - 在夹笔放入笔筒任务中,State-free Policy高度泛化测试成功率从0提升至0.98,水平泛化测试成功率从0提升至0.58 [14] - 在叠衣服任务中,State-free Policy水平泛化能力达到0.834,远高于带状态模型的0.183 [17] - 在全身机器人取饮料任务中,State-free Policy水平泛化能力达到0.784,远高于带状态模型的0.117 [17] - 实验数据收集有严格标准,物体摆放均受严格控制,确保空间泛化能力来自模型本身而非数据多样性 [14] 额外技术优势 - State-free Policy展现出更高数据利用效率,在300、200、100、50条演示数据下均保持较高成功率,而基于状态策略随数据量减少性能迅速下降 [20] - 在跨本体微调中收敛更快,叠衣服任务微调5k步成功率0.700,微调10k步成功率0.967,优于带状态模型的0.333和0.767 [21] - 方法支持更高效跨平台迁移,只需在相似相机配置下适应图像偏移,无需重新对齐状态空间 [21] - 为未来传感器设计提供新思路,双广角腕部相机已能覆盖完整任务观察,顶置相机可能成为性能瓶颈 [22][23]
千寻智能高阳团队最新成果:纯视觉VLA方案从有限数据中学到强大的空间泛化能力
机器人大讲堂·2025-10-04 04:05