「一脑多形」圆桌：世界模型、空间智能在具身智能出现了哪些具体进展？丨GAIR 2025

文章核心观点 - 具身智能领域仍处于技术路线发散探索阶段，尚未收敛，这为创新提供了机会，但最终目标是实现通用泛化智能，而非回归传统工业自动化 [3][4] - 世界模型在自动驾驶等特定场景已开始应用，主要用于生成海量合成数据以覆盖长尾场景和进行闭环测试，但其与具身智能的结合仍处于早期探索阶段，定义和技术范式尚未统一 [10][11][12][14] - 空间智能是机器人感知和理解环境的关键，其发展建立在SLAM等技术基础上，并引入AI以增强对语义和复杂空间关系的理解，但目前仍面临数据模态不足等挑战 [20][21][22][23] - 具身智能的落地应用面临技术、成本与商业化现实的巨大鸿沟，需在追求通用智能的“星辰大海”与解决工业自动化等迫切需求的“脚踏实地”之间找到平衡 [25][26][27][30] - 数据是驱动技术发展的关键，其获取方式（真机、仿真、生成）的有效性取决于具体任务，业界正在探索不同数据源的最优组合比例 [34][35][38] 具身智能技术发展现状 - 技术路线仍处于发散探索阶段，尚未收敛，高校与产业界需更好分工合作，高校应聚焦交互、人机协同、世界模型等核心问题突破 [3][4] - 单体机器人研究倾向于采用端到端技术路线以降低系统复合误差和延迟，决策层共识是放大视觉语言模型的能力 [5] - 群体机器人的基础是打造柔性、弹性、分布式、灵活的群体架构 [5] - 端到端是一种工程范式，强化学习是一种具体解法，黑箱是一种模式，三者概念不同，不应等同 [6][7] - 实际研究中采用多种解法，包括大量使用强化学习，并以解决问题为唯一目标 [8][9] 世界模型在自动驾驶领域的应用与挑战 - 世界模型在自动驾驶领域主要用于生成海量合成数据以覆盖数据飞轮积累的corner case和之前布局不到的场景 [11] - 与传统方案相比，世界模型能实现闭环测试，将决策链路放在模型内进行优化，这是最大的不同 [11] - 自动驾驶场景相对简单，且早有“闭环仿真器”概念，生成式AI能力的提升使生成的数据真假难辨，提供了大量有价值的训练样本 [12] - 世界模型的定义尚未统一，例如李飞飞侧重像素级重建，而LeCun认为潜在空间表达也算世界模型 [12] - 自动驾驶领域世界模型的状态表征主流仍是视频生成，同时结合雷达、点云等多模态数据以增强信息量和安全性 [13] - 将世界模型与视觉语言动作模型结合，旨在解决离线数据集无法通过模仿学习获得长程思维和未来预测能力的问题 [15][16] - 世界模型有助于解决长程任务的理解和预测难题，能赋能后续的策略学习 [17] 空间智能的定义与发展 - 空间智能定义尚不清晰，其发展部分源于SLAM技术的延续和演进，现在更多采用基于学习的方法 [20] - 空间智能不仅关注空间几何，还增加了对语义信息的关注，包括物体类别、用途、交互方式等 [21] - 机器人目前处理复杂空间关系（如“第一排左边数第四个瓶子”）的能力仍不成熟，这是空间智能需要解决的问题 [22] - 大模型因训练数据源于语言模态而存在空间关系上的“幻觉”，需构建专门数据集与传统SLAM的强空间能力对齐 [23] - 当前视觉语言模型中的视觉多为2D，3D模态较为欠缺，需补足3D信息以解决空间智能问题 [23] 具身智能的落地应用与商业化挑战 - 无人机应用生态中，航拍、农业植保等易落地应用占比可能不到1%，更多高空作业场景（如灭火、清洗、载人）尚未实现 [26] - 应用未普及的最大卡点之一是“不够智能”，依赖规则编写导致开发成本高，难以算过经济账，AI发展带来了解决希望 [27] - 通过AI与大模型结合改进决策能力，被视为实现通用泛化解决问题能力的关键希望 [29] - 产业界存在迫切需求，希望尽快将机器人用于工业自动化，这与技术创业者的通用智能愿景存在差距 [30] - 人形机器人硬件在负载能力、高负载平衡性、运动稳定性及灵巧手方案等方面仍有诸多挑战，离真正“干活”的应用落地尚有距离 [30] - 中美创业环境存在差异，例如Scale AI估值达140亿美元，而国内创业公司估值多在几亿人民币量级，需同时面对宏大愿景与短期商业化的矛盾 [31] - 创业者认为最终成功做成事情比估值高低更重要，并指出中国投资人对技术的耐心因DeepSeek等案例而有所增加 [31][32] 数据获取策略与有效性 - 机器人数据获取主要有真机采集、仿真和视频生成模型三种方式，其有效性需根据具体任务判断，并非真机数据一定最合理 [34][38] - 数据可视为金字塔结构：底层是大量、低成本的互联网或视频数据，用于预训练；中层是合成数据，用于提高任务泛化性；顶层是真机或遥操数据 [34] - 业界正在探索不同数据源的有效比例，例如一种说法是70%的网络视频数据、20%的合成数据和10%的真机数据 [35] - 合成数据是否有效，关键在于其是否针对特定任务有价值，且其表达形式不一定是视频，也可能是潜在的抽象表征 [35][36][37] - 对于足式机器人的基本运动控制任务，可能在纯仿真环境中无需真实数据即可完成，高度依赖任务形式本身 [38]