Workflow
WIYH数据集
icon
搜索文档
深扒了具身的数据路线,四小龙的格局已经形成......
具身智能之心· 2025-12-24 10:04
文章核心观点 - 具身智能行业正围绕数据采集、模型训练、数据扩展和模型优化的闭环链路发展,数据是当前发展的主线[1] - 行业并非寻求单一最优解,而是在不同阶段和约束下,沿着四条数据路线同时前进[3] - 这四条路线已形成四种具身数据供给范式,并初步形成了以智元、银河、它石、鹿明为首的“具身数据四小龙”格局[4][34] - 2026年行业竞争将加剧,但掌握数据话语权的公司前景看好[5] - 具身智能正从探索阶段走向长期能力迭代,数据体系的重要性从“支撑算法”转变为“决定节奏”[43] 四条核心数据路线及其特点 - **遥控真机数据**:最真实、最昂贵,数据价值密度极高,是研究者的“安全感来源”,但存在慢、贵、强绑定本体、规模扩张成本线性增长等问题,被视为高质量样本但难以大规模供给[6][8][9][10][12][13][14] - **仿真合成数据**:效率高、规模几乎无限,通过技术提升“像真度”,但始终存在与现实世界的“领域鸿沟”,在精细操作和复杂交互中问题会被放大,是很好的“训练场”但难决定真实世界上限[6][16][17][18][19][20][21] - **人类视频数据**:最便宜、数据量巨大、获取成本极低、场景覆盖极广,但易被误解,存在人体与机器人结构不一致、缺少力觉触觉反馈、动作可执行性无保证、标注对齐成本高等问题,通常作为真实交互数据丰富后的“叠加项”而非起点[6][22][23][25] - **UMI数据**:无本体依赖,更通用的数据协议,重新定义了数据与机器人本体的关系,将真实交互数据从特定机器人解耦,实现了真实世界交互、多本体适配、多机并行采集、工业级质量控制及可长期规模部署,让真实数据首次具备持续供给的可能性,正成为重要的具身数据基础设施[6][27][28][30][31] 各路线代表公司及实践 - **遥控真机路线**:海外以特斯拉为代表,国内以**智元机器人**为代表,其开源了百万真机数据集AgiBot World,并支撑了GO-1具身基座大模型和全人形WholeBodyVLA方案[35][39] - **仿真数据路线**:国内以**银河通用**为代表,基于十亿量级仿真数据发布了全球首个全仿真预训练具身大模型GraspVLA及灵巧手抓取数据集DexonomySim[35][39] - **人类视频路线**:海外有Figure AI,国内以**它石智航**为代表,发布了包含10万+真实人类操作视频的WIYH数据集及配套的SenseHub数据采集系统[35][39] - **UMI路线**:海外有Generalist用27万小时真机数据训练Gen0模型验证价值,国内**鹿明机器人**是产业界最早探索该路线的代表,发布了FastUMI Pro系统,使采集效率提升3倍,成本降至传统方案的1/5[35][39] 各数据路线的角色与行业意义 - 遥控真机数据用于**验证能力上限**[40] - 仿真数据用于**放大探索空间**[40] - 人类视频数据用于**扩展语义覆盖**[40] - UMI数据用于**支撑真实世界的长期数据供给**[40] - 四条路线并非互相否定,而是各自承担不同角色,共同构成行业的数据供给结构[38] - UMI路线对团队早期选择与持续投入依赖更强,其积累是路线选择和长期投入的结果[41][42] - “具身数据四小龙”是当前阶段性结构分工的描述,未来优势将取决于哪些团队能在真实世界中持续运行并累积数据[44][45]
全球首个真实世界具身多模态数据集,它石智航交卷,比特斯拉还早6个月
量子位· 2025-10-10 11:24
WIYH数据集核心突破 - 全球首个大规模真实世界具身VLTA多模态数据集,整合视觉、语言、触觉和动作数据[1] - 包含超过10万条真实人类操作视频,覆盖40余种任务类型、100多种人类技能,使用13种以上传感器,涵盖520多种物体[3] - 每条数据包含6种标注,实现多模态数据的同步标记[4] 数据集技术特点与优势 - 数据采集基于多个行业的真实工作场景,如酒店洗衣、超市装配,覆盖标准操作流程[9][10][11] - 多层标注包括语义标注、深度信息、交互物体的可供性、语言推理、手部与末端动作轨迹等[12] - 通过自研采集套件同步获取视觉、力触觉和动作轨迹数据,保证多源信息在时间和空间上的精确对齐[15] - 依托云端基础大模型完成高精度标注,为具身基座模型提供全面多维的训练信号[15] - 在真实生活操作场景中采集数据,提升数据真实性和多样性,显著降低采集成本[15] 行业技术范式与公司定位 - Human-centric数据技术范式成为行业共识,公司在该路线上比特斯拉至少领先6个月[5][8] - 公司成立仅半年便完成2.42亿美元融资,采用全栈开发路线,覆盖算法、硬件本体和核心应用[8][31] - 公司核心团队由自动驾驶和机器人领域资深专家组成,包括前大疆、华为、百度等公司高管[28][29][30][31] 数据集对行业的意义 - 填补跨行业真实工作场景的数据空白,使面向真实世界的具身AI World Engine预训练成为可能[26] - 为未来实现具身基座模型的规模定律奠定基础,推动具身智能接近人类水平的认知与行动能力[16][26] - 相较于互联网视频数据、仿真数据和现有开源数据集,WIYH在模态完整性、标注精度和采集环境上具有明显优势[14][18][20][24]