诺亦腾机器人戴若犁:跳出遥操作,构建以人为中心的数据路径丨GAIR 2025
雷峰网·2025-12-18 12:05

公司业务定位与模式 - 公司是中国唯一一家明确以“数据”为交付界面的公司,凭借动作捕捉技术积累为机器人数据提供关键支撑 [1] - 公司服务了六七十家不同的机器人公司、模型公司,覆盖具身智能数据的全链路Pipeline,包括遥操作、Human-centric数据采集、数据标注、预训练、后处理 [3] - 公司明确自身是一家数据公司,拥有自己的数据集,同时也能提供设备和项目服务,但核心是数据业务 [35] 行业趋势与机遇 - 人形机器人所代表的具身智能,正成为一个天花板足够高、且对高质量数据有强烈需求的新赛道 [1] - 行业共识是如果只做单一构型,那么人形是一个最好的解决方案,并且具身智能的Scaling Law得到阶段性验证,数据量提升能带来泛化能力和灵巧性 [6][8] - 行业对数据的需求急剧增长,客户询价从千小时、万小时跃升至以十万小时为单位起,需求胃口已被打到极高数量级 [10] 公司业绩与市场地位 - 公司前身诺亦腾(Noitom Ltd.)在动作捕捉领域市占率全球第一,每年有小几个亿的营收 [5] - 公司机器人业务在2024年全年营收相比过去任何一年涨了5、6倍,2025年比2024年又涨了6倍,两年合计有将近四十倍的增长 [5] - 公司自2023年9月底开始,密集的数据需求建立在人形机器人作为最佳单一构型方案和具身智能Scaling Law被验证这两件事的基础上 [6][8] 数据业务模式分析 - 机器人行业的数据需求与Scale AI服务的多模态模型和自动驾驶行业有本质区别,后者的甲方自身获取数据能力强,导致数据生意的毛利天花板不高 [11] - 在中国,当乙方没有显著优于甲方的数据获取能力时,数据生意本质是劳动力置换和外包,毛利天花板在15%到20% [13] - 美国数据公司如Surge AI能将毛利做到60%,Scale AI和Mercor则分别擅长数据验证/模型优化与AI人力招聘,它们能在甲方提供数据的情况下做到40%或50%的毛利 [12] 数据采集技术路径演进 - 遥操作是获取真机数据的良好方式,但存在三大结构性挑战:成本昂贵而缓慢、能力有局限性(如无法执行灵巧手内操作)、以及极差的跨本体泛化能力 [18][20][21] - 行业视角正拓展至以人为中心(Human-centric)的数据路径,直接在人身上穿戴超全模态、超高精度的传感器采集数据,以实现跨本体泛化 [24] - 公司已在国内一个城市和海外一个城市各建设了一个数据工厂,专门采集以人为中心的数据,而不采集遥操作数据,因为后者不值得大体量累积 [25] 数据分层策略与价值主张 - 公司将数据分为不同层次,每层有明确的“第一性”:真机遥操数据的第一性是“真”,用于学习真机特性;超高精度工厂采集数据的第一性是“全维度/多模态/高精度”,用于跨本体;野外采集数据的第一性是“视觉泛化性” [33][34] - 公司主张明确每层数据的定位并学会舍弃,避免成为功能混杂的“勺叉”,而应成为专注好用的“叉子” [34][35] - 在数据工厂中,公司采集大量以人为中心的数据,分为工厂内采集和野外采集两种方式 [29]