瞭望 | 破题数据之困
新华社·2025-11-18 03:06
行业核心挑战与机遇 - 训练具身智能大模型所需的多模态数据(视、听、触、力觉)与当前已有数据量之间存在至少两个数量级的巨大鸿沟 [1][4] - 真实数据是提升模型可靠性和泛化能力的关键,但采集成本高、效率低,合成数据成本低但与真实世界存在偏差 [1][4] 数据采集技术创新 - 搭建真机数据采标平台:北京人形机器人创新中心与百度智能云合作建设百万量级高密度、高质量、高通用性数据集,跨本体视觉语言动作大模型XR-1使多种任务平均成功率提升约20% [5] - 利用数据手套实时收集高精度操作数据:北大—灵初联合实验室设计的设备单套日采集量达5000条,已累计收集超百万条手部操作数据,主要应用于物流分拣场景 [5] - 通过产品规模化落地获取针对性数据:无人驾驶已验证海量真实数据获取路径,具身智能规模化部署将带来数据回流以协助模型训练和评测 [6] 数据质量与标准化建设 - 当前数据存在“数据跟着本体走”的强耦合问题,不同型号机器人的传感器和算法差异导致数据格式互不兼容 [7] - 数据格式、术语、采集流程的统一能从根本上解决异构问题,为模型训练提供高质量原料 [7] - 行业已开始行动:智元机器人于今年9月获得业内首张人形机器人数据集产品CR认证证书,提供“合规数据”以降低场景适配成本 [7] 数据共享与流通机制 - 可借鉴互联网中台概念建立具身智能数据共享平台,制定贡献即获益规则,通过财政补贴、算力支持等政策激励企业贡献数据 [1][8] - 需通过数据交易机制保障投入回报,共同做大产业蛋糕 [1][8] - 数据流通需立法保障,当前缺乏明确法规与标准,家庭对话、工厂工况等真实场景数据与隐私和商业秘密深度绑定,中长期面临风险 [8]