如何让机器人学会使用螺丝刀、拧紧螺母?加州伯克利给出了答案!
机器人大讲堂·2025-12-08 09:03

研究核心观点 - 加州大学伯克利分校团队提出DexScrew框架,通过“简化仿真学习核心技能 + 真实世界数据补全细节”的方法,使机器人能在无视觉依赖下,凭借触觉和时序信息精准完成螺母螺栓紧固与螺丝刀操作,并能泛化至未见过的零件形状和应对外部干扰 [3][28] 研究方法与流程 - 第一步:简化仿真学习核心旋转技能 - 将螺母简化为厚三角形,螺丝刀手柄简化为球形或多边形,通过旋转关节与底座连接,完全忽略螺纹结构和复杂摩擦,仅保留“旋转”核心动作需求 [5][8] - 采用“先知策略+感官运动策略”两步法,先知策略利用仿真中的97维内幕信息(如零件质量、摩擦系数)快速找到最优动作,再通过蒸馏技术转移至仅依赖关节运动历史的感官运动策略 [8] - 训练中加入域随机化,随机调整零件质量、尺寸、摩擦系数并加入微小外力干扰,以提升策略鲁棒性 [8] - 第二步:遥操作收集真实世界多感官数据 - 设计技能辅助遥操作系统,人类操作员通过VR手柄控制机器人腕部位置和对准,在适当时机触发仿真训练好的“手指旋转技能”进行精细拧动,降低了操作门槛 [9][11] - 系统同步记录机器人18个关节(手部12个,手臂6个)的运动数据,以及每个指尖120个压力传感单元的三轴触觉信号(最小可检测0.05N的力) [11] - 最终为螺母螺栓任务收集50条轨迹(每条约80秒),为螺丝刀任务收集72条轨迹(每条120-180秒),构建了多感官数据集 [11] - 第三步:行为克隆训练精准触觉策略 - 采用行为克隆方法,让机器人模仿遥操作中的成功动作,神经网络输入过去5个时间步的关节运动与触觉数据,输出未来16个时间步的动作序列,以把握动作连贯性 [12] - 触觉信号经扁平化和神经网络提取特征后,与关节运动数据融合,使机器人能通过触觉判断打滑、对准情况并调整力度或角度 [12] - 经过200个epoch训练,最终策略不依赖视觉,在昏暗或遮挡环境中也能工作 [13] 实测性能表现 - 螺母螺栓任务 - 测试涵盖方形、三角形、六边形、十字形四种螺母,其中六边形和十字形为训练中未见的形状 [15] - 融合触觉和时序信息的DexScrew策略表现最佳:所有螺母紧固进度比超过95%,十字形螺母达98.75%,平均完成时间在75-125秒之间 [16][17] - 无触觉的策略在三角形螺母上进度比仅约30%,且错位后无法恢复;触觉能帮助机器人通过指尖信号变化快速纠错,调整腕部方向或施加校正力 [17] - 螺丝刀任务 - 螺丝刀操作因刀杆无轴向约束、易打滑且咬合关系难仿真,挑战更大 [18] - 传统直接仿真到现实策略进度比仅41.6%,专家数据回放进度比仅50.8% [18][19] - DexScrew策略在融合触觉和时序信息后,进度比升至95%,平均完成时间仅187.87秒;可视化显示其能维持拇指食指交替接触,稳定抓握手柄 [19] - 抗干扰能力 - 策略能应对外力拖拽手指或反向旋转螺母/螺丝刀的干扰,通过快速重新定位手指腕部、稳住姿态并重启正确旋转方向来恢复任务,不会中断 [20][24] 关键设计验证 - 消融实验结论 - 仿真中的特权信息(零件质量、摩擦系数等)对提升训练奖励至关重要,缺乏则性能下降 [25] - 时序信息(过去5个时间步历史数据)显著提升策略对零件形状和旋转进度的判断泛化能力 [25] - 触觉反馈在复杂形状或易打滑场景中是核心,能使进度比提升30%以上 [25] - 三步流程及触觉与时序信息融合的设计是相互支撑的核心竞争力 [27] 行业意义与前景 - DexScrew框架提供了一套“低成本、可扩展”的灵巧操作落地方案,不追求完美仿真,通过“简化仿真学技能+真实数据补细节”的思路,降低了高性能灵巧操作策略的训练门槛 [28] - 该研究验证了触觉反馈在接触密集型任务中的不可替代性,为机器人在工业装配、家庭服务、精密制造等领域的应用奠定了基础 [28]