行业最大规模、泛化程度最高无本体具身数据集合来了——“10KhRealOmni-OpenDataSet”
机器人大讲堂·2026-01-06 12:56

文章核心观点 - 公司基于其数据采集能力和规模化数据产线,已在具身智能领域构建了大规模、高质量、多样化的真实世界数据集,并已开源部分数据以促进行业发展 [1] - 公司公布了其开源数据集的详细信息、获取途径及后续更新计划,并邀请社区反馈以共同推进技能数字化 [2] 数据规模与质量 - 数据采集覆盖超过3000个家庭,累计收集百万小时规模的数据 [1] - 累计数据时长超10千小时,总计数据规模超过1百万个片段,且每个技能的数据量均为行业最多 [1] - 数据包含大视场角原始图像、轨迹、标注、关节动作等多模态信息,且轨迹还原精度在行业内领先 [1] 数据场景与技能特性 - 数据采集专注于10大家庭常见场景任务,涵盖30项技能,避免了因技能过于分散而导致质量下降 [1] - 每项技能均在约千个家庭、近万个不同细分目标中采集,确保了场景和目标的丰富性及数据的泛化能力 [1] - 数据均为记录复杂家务清洁全过程的双手、长程任务 [1] 数据开源与社区计划 - 已开源第一阶段部分数据,涵盖4大场景任务下的12项技能,并计划尽快完成其余技能的更新 [2] - 开源数据集提供格式转换与使用支持,下载地址包括Hugging Face、魔搭及百度百舸平台,以方便国内外用户 [2] - 公司邀请用户反馈问题、建议或期望采集的场景与技能,旨在与社区共创,推动人类技能数字化 [2]