Workflow
DexCanvas数据集
icon
搜索文档
DexCanvas:具身数据的规模、真实、力觉真的突破不了三缺一吗?
具身智能之心· 2025-10-10 00:02
文章核心观点 - 灵巧抓取是机器人具身智能领域面临的主要技术瓶颈,其核心挑战在于缺乏大规模、高质量、包含力觉信息的多模态操作数据 [1][2][11][12][13] - 灵巧智能科技有限公司发布的DexCanvas数据集通过“真实+合成数据”双轮驱动模式,提供了包含完整力/接触标注的大规模人手操作数据,旨在解决行业数据瓶颈 [15][16][21] - DexCanvas数据集在采集效率、数据质量和成本间取得了平衡,其基于真实人类演示并通过物理仿真恢复力控的方法,显著提升了数据的规模与泛化能力,为物理智能的发展提供了基础设施级解决方案 [20][21][27][30] 现有灵巧抓取与数据采集方案 - 灵巧抓取的学习方法主要分为模仿学习和强化学习两类,模仿学习通过观察演示学习,强化学习则通过设定奖惩机制学习,但后者需要大量训练数据和精心设计的机制以确保稳定性 [4] - 数据采集主要依赖遥操作技术,包括基于视觉的方案、动捕方式以及VR/AR等,其中动捕系统对光照变化和遮挡具有较强鲁棒性,而视觉方案常受环境因素影响 [5] - 现有灵巧手硬件主要分为两指夹爪和多指拟人化手,两指夹具简单可靠但自由度低,而具备20+自由度的拟人化手更适应为人类设计的环境 [2] 灵巧操作数据面临的定律与瓶颈 - 行业数据存在“规模、真实性、力觉信息只能三选二”的定律,大规模开源数据集往往缺乏关键的力控信息 [6][7] - 真实场景下的灵巧操作数据采集成本极高,开源数据集通常仅数万条且不含触觉信息,而仿真数据虽可达百万甚至亿万级别,但sim2real泛化成功率有时低于70% [9][10] - 技术瓶颈在于难以在复杂操作中实时感知微小力度变化,且传统方法因高维度和复杂接触动力学而泛化能力不足,核心问题是大规模高质量多模态数据的缺失 [11][12][14] DexCanvas数据集的突破与优势 - DexCanvas弥补了开源数据集力/触觉信息的缺失,每条轨迹都包含完整的多指力/接触标注,并为20+自由度系统优化 [16][17] - 数据集提供了从动捕到MANO拟合、物理重演至五指灵巧手执行的全套处理代码,并在HuggingFace上提供了预处理后的可直接训练版本 [18][19] - 数据集综合指标优于常规方案,在效率、成本和质量上取得平衡,采集效率与仿真同为五星,成本为三星,质量为四星 [20] - 数据集包含超1000小时真人多模态演示数据与10万小时物理仿真合成数据,涵盖亚毫米级轨迹和物理一致的接触力信息,包含4种同步模态 [21] DexCanvas的数据生成方法与特性 - 数据生成分为三步:使用20个动捕相机以亚毫米精度采集真人演示;通过物理仿真环境下的强化学习智能体复现动作以恢复力控;通过改变物体参数将1000小时演示扩充为10万小时增强数据 [25][27][28] - 该方法基于真实人类演示,仿真用于“显影”隐藏的物理信息,而非从零生成动作,避免了仿真漏洞,且仿真的是人手而非特定机器人手,使其具备极佳的跨平台泛化能力 [27][30] - 独创的物理信息完备的操作轨迹复刻流程,自动生成了缺失的力觉和接触信息,力控数据在规模扩充后得以保持 [22][29]
20TB、1000小时真人操作记录、超100万种操作状态!灵巧智能发布DexCanvas数据集,炸穿灵巧操作研发门槛!
机器人大讲堂· 2025-09-19 09:39
文章核心观点 - 灵巧智能公司正式发布DexCanvas数据集,规模达20TB,包含1000小时真人操作记录,旨在解决机器人灵巧操作领域高质量、多模态交互数据集缺乏的核心难题 [1] - 该数据集通过“以人+物体的交互为中心”的创新采集理念,实现了多模态信息一体化融合,为机器人灵巧操作模型的训练提供了高质量数据基准,将加速具身智能在真实场景的落地 [5][6][10] 当前机器人灵巧操作数据采集面临的挑战 - 机器人物理世界操作的“最后一公里”难题突出,表现为灵活抓握、力度感知与调节等能力不足,主要源于大规模、高质量、多模态交互数据集的缺乏 [2] - 现有三种主流数据采集方式均存在明显局限性:遥操作精度高但昂贵低效;视频学习成本低但缺乏细节;仿真合成高效多样但存在仿真到现实的物理偏差 [3][4] - 灵巧手操作任务面临三大核心挑战:高质量示范数据获取困难且常缺失力觉信息;传统动作捕捉存在厘米级误差;高自由度设备带来高维决策难题 [5] DexCanvas数据集的技术创新与优势 - 在数据获取机制上,转向“以人+物体的交互为中心”的采集理念,同步采集人手运动轨迹、物体属性及接触力学等多模态信息,实现RGB、深度、动作捕捉及力觉一体化融合 [6] - 在物理一致性方面,实现对操作过程的精细感知与数据处理,达到毫米级几何精度和接触点、接触力信息的物理级复现,解决遮挡、穿模等误差问题 [8] - 在控制复杂度方面,基于人类常见操作模式抽象出33类操作原型和6种关键语义规则参数,为复杂操作任务的表示与泛化提供结构化策略基础 [8] 数据集发布与行业影响 - DexCanvas数据集将于10月中旬在HuggingFace和Github开源,技术报告后续在ArXiv发布,大幅降低研究门槛并加速具身智能模型落地 [10] - 该解决方案探索出融合物理规则与语义抽象的具身智能发展路径,对推动整个机器人操作能力发展具有重要意义 [10]