8位具身智能顶流聊起「非共识」:数据、世界模型、花钱之道
36氪·2025-11-23 12:56

文章核心观点 - 国内具身智能行业顶尖从业者就技术路径、数据策略等关键问题存在显著非共识,反映出不同的战略重心和第一性原理[4][7][9] - 具身智能的发展面临数据瓶颈,100亿元资金被普遍认为不足以支撑行业突破,需用于吸引人才、构建数据飞轮和基础模型[7][67][68][69][70] - 行业普遍认为具身智能的最终形态将依赖于一个统一的基础模型架构,但当前技术路线尚未收敛,VLA范式受到反思[18][19][23][25][36] 技术路径分歧 - 世界模型被视为具身智能的核心预测能力,但其训练数据必须来自机器人自身,而非人类行为视频[14][15][16] - 有观点认为世界模型是具身智能的关键组成部分,但不一定是必须的基座,其价值在于基于时空状态进行预测[17] - 对当前主流的视觉-语言-动作模型范式提出质疑,认为其语言居中夹层的结构不符合人类操作本质,应探索视觉优先或动作优先的新架构[19][20] - 具身智能模型应是一个闭环系统,能根据世界反馈即时调整动作,这与大语言模型的开环一问一答模式有本质区别[22] - 另一种观点认为终极解决方案将是一个融合系统,包含VLA、世界模型和强化学习等要素,而非单一模型[23][24] - Transformer架构被认为具有跨模态处理的通用性,但需解决输出对齐问题,未来可能出现统一范式[27][28][35] - 长期来看,基于物理世界数据训练的具身多模态模型可能反超并吞并以虚拟世界数据为主的现有模型[40] 数据策略与瓶颈 - 数据稀缺是行业核心瓶颈,解决方案存在分歧:有主张优先采集真实物理世界数据,有强调在难以采集处使用合成数据[9][10] - 数据策略强调真实性、质量和多样性,需在真实场景而非数据厂采集,并最终通过机器人自主交互产生数据[45][46][47][48][49][50] - 视频数据因可海量获取且模拟真实世界而被视为基座模型学习的重要来源,结合真机微调和强化学习提升模型[51] - 仿真数据被强调用于解决复杂控制问题,如足式行走和灵巧手操作,可作为基础控制器启动真实世界数据飞轮[52][53][54][55][56] - 数据使用策略呈现融合趋势,根据不同任务阶段和特性选择互联网数据、仿真数据或真实数据[37][38][59] - 自动驾驶模式被引用为范例,通过C端产品大规模部署实现数据回收,是具身智能数据规模化的可行路径[59][60] 资金分配与战略重心 - 面对100亿元资金,战略重心集中于构建自我进化的数据飞轮、设计专属基础模型以及吸引全球顶尖人才[67][68][69][70] - 资金规模被评价为“不太够”,需联合行业伙伴共同推动,投资于智源研究院等机构以支持长期技术突破[7][67] - 决策的第一性原理包括相信规模定律驱动模型进化、做难而正确的事情、关注落地可行性以及创造长期真实价值[61][62][64][65]