全球首个真实世界具身多模态数据集,它石智航交卷,比特斯拉还早6个月
量子位·2025-10-10 11:24

WIYH数据集核心突破 - 全球首个大规模真实世界具身VLTA多模态数据集,整合视觉、语言、触觉和动作数据[1] - 包含超过10万条真实人类操作视频,覆盖40余种任务类型、100多种人类技能,使用13种以上传感器,涵盖520多种物体[3] - 每条数据包含6种标注,实现多模态数据的同步标记[4] 数据集技术特点与优势 - 数据采集基于多个行业的真实工作场景,如酒店洗衣、超市装配,覆盖标准操作流程[9][10][11] - 多层标注包括语义标注、深度信息、交互物体的可供性、语言推理、手部与末端动作轨迹等[12] - 通过自研采集套件同步获取视觉、力触觉和动作轨迹数据,保证多源信息在时间和空间上的精确对齐[15] - 依托云端基础大模型完成高精度标注,为具身基座模型提供全面多维的训练信号[15] - 在真实生活操作场景中采集数据,提升数据真实性和多样性,显著降低采集成本[15] 行业技术范式与公司定位 - Human-centric数据技术范式成为行业共识,公司在该路线上比特斯拉至少领先6个月[5][8] - 公司成立仅半年便完成2.42亿美元融资,采用全栈开发路线,覆盖算法、硬件本体和核心应用[8][31] - 公司核心团队由自动驾驶和机器人领域资深专家组成,包括前大疆、华为、百度等公司高管[28][29][30][31] 数据集对行业的意义 - 填补跨行业真实工作场景的数据空白,使面向真实世界的具身AI World Engine预训练成为可能[26] - 为未来实现具身基座模型的规模定律奠定基础,推动具身智能接近人类水平的认知与行动能力[16][26] - 相较于互联网视频数据、仿真数据和现有开源数据集,WIYH在模态完整性、标注精度和采集环境上具有明显优势[14][18][20][24]