Compositional Policies
搜索文档
为什么给机器人装上昂贵的触觉传感器,反而让它变笨了?
机器之心· 2025-12-03 04:01
文章核心观点 - 多所顶尖大学合作提出一种名为“组合策略”的新方法,以解决机器人多传感器融合中传统特征拼接法的根本缺陷 [2][9][10] - 传统特征拼接法在处理稀疏模态(如触觉)时将其视为噪声,导致性能下降,例如在遮挡抓取任务中,增加触觉信息反而使成功率从35%暴跌至5% [4][12] - 新方法通过为每个传感器模态训练独立的专家策略,并在策略层面进行组合,显著提升了任务成功率、模块化和系统鲁棒性 [10][15][16][29] 当前方法的局限性 - 主流多模态机器人学习采用特征拼接法,即提取所有传感器嵌入后拼接成一个大向量,再输入单一神经网络策略 [6] - 该方法存在两个根本缺陷:一是将统计上罕见的稀疏模态信号(如触觉)视为噪声并进行过滤;二是缺乏模块化,添加或移除传感器需从头重新训练整个策略 [9][12] - 特征拼接法导致模态间紧密耦合,使得系统在传感器故障时易发生灾难性故障,且产生昂贵的重训练成本 [12] 组合策略解决方案 - 解决方案核心是为每个感官模态(如RGB、触觉)训练独立的、基于能量的专家策略,使其专注于自身的感官流 [10][13] - 在模态内部可进一步分解为互补子策略,例如将视觉分解为粗略几何推理和细粒度细节 [13] - 通过一个路由器网络学习共识权重,以决定每个模态对最终动作的影响程度,组合多个策略对应于概率分布相乘,即简单的分数函数相加 [13][16] 解决方案的优势 - 有效解决稀疏性问题:每个专家策略互不干扰,稀疏模态(如触觉)的专家能在富含接触的操作中高度专业化,不再与主导模态竞争表征能力 [15] - 实现模块化设计:专家独立训练,添加新传感器只需训练新专家并与现有专家组合,无需重训练整个系统,支持增量学习 [16][18] - 具备鲁棒性与自适应性:在执行过程中能应对突发扰动(如被抢走物体)或物体被移动等状况,并成功完成任务 [20][21] 实验结果对比 - 在RLBench模拟的四个操作任务上,新方法平均成功率为66%,显著优于单模态策略的49%和特征拼接法的56% [24] - 在真实世界遮挡记号笔抓取任务中,新方法成功率达65%,远高于仅使用视觉的35%和特征拼接法的5% [28] - 在勺子重定向任务中,新方法成功率75%对比特征拼接法的21%;在拼图插入任务中,新方法成功率52%对比特征拼接法的40% [28] 研究意义与结论 - 该研究通过从特征级拼接转向策略级组合,为模态稀疏性问题提供了系统性解决方案 [29] - 方法实现了增量学习和鲁棒部署,对现实世界中传感器的逐步添加或更换具有深远意义 [18][29] - 核心见解在于让每个模态拥有自己的专家并学习其相对影响力,而非强制将所有传感器输入单一网络 [29]