LLM只是“黑暗中的文字匠”?李飞飞:AI的下一个战场是“空间智能”
36氪·2025-11-11 10:22

文章核心观点 - AI发展的下一个关键前沿是“空间智能”,旨在解决当前AI(尤其是大语言模型)缺乏对物理世界常识和空间规律理解的根本缺陷 [1][4][12] - 空间智能被定义为连接感知、想象和行动的终极能力,是推动AI实现下一次巨大飞跃并迈向通用人工智能(AGI)的关键 [3][4][14] - 实现空间智能需要构建超越现有范式的“世界模型”,该模型需具备生成性、多模态和交互性三大核心能力 [14][15][16][17] 当前AI的局限性 - 当前AI被比喻为“黑暗中的文字匠”,虽掌握海量抽象知识,但对物体形状、力学作用、空间导航等物理世界常识几乎一无所知 [1][12] - 顶尖多模态模型在估算距离、方向、尺寸或进行物体“心理旋转”时表现接近随机猜测,无法预测基础物理现象,导致生成视频在数秒后失去连贯性 [12] - 这种缺陷严重限制了自主机器人、沉浸式元宇宙体验等应用的发展,使其仍处于早期概念或雏形阶段 [1][8] 空间智能的定义与重要性 - 空间智能是人类认知的基石,支撑着从日常动作(如停车、接钥匙)到专业活动(如消防员救援、科学家发现DNA结构)的一切空间互动 [9][10][11] - 它是想象与创造的根基,从史前岩画到现代工业设计、数字孪生和机器人训练,都依赖于基于空间的想象力 [10] - 对AI而言,空间智能意味着超越语言界限,通过想象、推理、创造与互动来理解世界,而不仅仅是描述世界 [13] 实现空间智能的技术路径 - 核心是构建“世界模型”,这类新型生成模型需能理解、推理、生成及与语义-物理-几何-动态复合的虚实世界互动 [14] - 模型需具备三大能力:1)生成性:创造符合几何与物理规律的虚拟空间 [15];2)多模态:处理图像、视频、文本、手势等多样输入 [16];3)交互性:基于行动推演世界状态,并能推导达成目标的行动序列 [17] - 面临的关键技术挑战包括:定义新型通用训练目标函数、获取并处理大规模多模态训练数据、开发能处理三维/四维信息的新型模型架构 [18][19] 空间智能的应用前景 - 在创意产业,如World Labs的Marble平台,可使电影制作人、游戏设计师快速创建可探索的3D世界,降低传统3D设计成本,开启新维度的叙事与沉浸式体验 [20][22][23] - 在机器人技术领域,世界模型能通过模拟数据缩小模拟与现实差距,训练机器人具备感知、推理、规划和行动能力,应用于实验室辅助、家庭护理等场景 [24][25] - 长远来看,空间智能将深刻影响科学(模拟实验、加速材料研究)、医疗保健(药物发现、医学影像诊断)和教育(沉浸式学习、技能培训)等领域 [26][27] 行业影响与未来展望 - 空间智能被视为AI未来十年的决定性课题,其发展需要整个AI生态系统(研究人员、创新者、企业、政策制定者)的共同参与 [21] - 该技术旨在增强人类能力而非取代人类,目标是提升创造力、加速发现并放大人类关怀,同时尊重人类的判断力、创造力和同理心 [21][27] - 公司如World Labs已展示初步成果(如Marble模型),但完全释放空间智能潜力仍面临严峻挑战,是未来十年的核心研发方向 [20][28]