Workflow
灵巧手数采革命
icon
搜索文档
斯坦福洗碗机器人新作!灵巧手跟人学采茶做早餐,CoRL 2025提名最佳论文
量子位· 2025-10-02 05:30
文章核心观点 - 提出名为DexUMI的数据采集与策略学习框架,通过硬件与软件双重适配,利用人手作为自然接口将灵巧操作技能迁移至多种灵巧手 [2] - 该框架旨在解决人手与灵巧手之间的具身差异,相比传统遥操作方法,数据采集效率提升3.2倍,在复杂任务中平均成功率高达86% [7][32] - 框架验证了其在精密操作、多接触交互及长时序任务中的能力,为大规模灵巧手现实数据高效采集建立了新范式 [35][36][37] DexUMI框架的技术原理 - **硬件适配**:针对每款灵巧手设计专用可穿戴外骨骼装置,通过硬件优化调整参数(如连杆长度),精准匹配灵巧手指运动轨迹 [18] - 外骨骼装置采用编码器捕捉关节运动,配备150°广视场角相机记录视觉数据,并利用iPhone ARKit技术追踪手腕位姿 [19] - **软件适配**:采用数据处理流水线,首先从示教视频中分割移除人手及外骨骼,随后利用目标灵巧手及环境背景进行视频修复,确保训练与部署阶段视觉输入一致 [22] - 软件处理包含四个具体步骤:人手与外骨骼分割、环境背景修复、生成对应灵巧手视频、机器人示教视频合成 [25][26][27] DexUMI的性能验证与结果 - 在两款灵巧手硬件平台(全驱和欠驱)上验证了框架的有效性 [7] - 在四项现实任务中进行评估,包括立方体任务、蛋盒开启、茶艺操作和厨房任务,每项任务进行20次评估回合 [29][33] - 实验结果显示,软件适配对于弥合视觉差距至关重要,例如在学习蛋盒开启动作时,若无软件适配则无法精准交互 [31] - 在包含需多指协同的长时序复杂任务中,DexUMI实现了86%的平均任务成功率 [32] 涉及的灵巧手硬件 - **星动纪元XHAND 1**:采用全驱动设计,具备12个主动自由度,大拇指三个自由度,食指三个自由度,其余三指各两个自由度 [33] - **Inspire Hand**:采用欠驱动设计,12自由度(6主动自由度),拇指2主动2被动自由度,其余四指各1主动1被动自由度 [33] - 星动XHAND 1在测试中表现卓越,单独完成了包含四个连续步骤的厨房长序列任务 [37] - 星动XHAND 1的性能得益于其关节全直驱方案以及指尖270度覆盖的高精度触觉传感器 [37][39] 行业影响与前景 - DexUMI框架被视为对去年发布的UMI(针对夹爪类机器人)的升级,从夹爪扩展到更复杂、更高自由度的灵巧手,可能引发新一轮灵巧手数据采集革命 [5] - 该研究在CoRL 2025中被提名为最佳论文,显示了其学术与行业影响力 [5] - 框架为建立数据采集共享社区奠定基础,众多数据采集者、研究机构及企业可共同贡献和使用高质量数据集,降低数据采集成本,避免资源浪费 [39][41] - 这种数据共享模式将提高数据采集效率,加速真实数据在Scaling law中的比例,从而推动灵巧操作在实际应用场景的落地和整体市场规模的扩大 [41]