Workflow
Marble模型
icon
搜索文档
AI教母李飞飞:空间智能才是走向AGI的唯一路径
虎嗅APP· 2025-11-11 10:52
文章核心观点 - 当前大语言模型存在根本性局限,被描述为“能言善辩却缺乏经验,知识渊博却脱离现实”的“睁眼瞎”,无法真正理解物理世界[4][7][28] - AI发展的下一步关键方向是赋予机器“空间智能”,即理解和交互物理世界的能力,这被视为通往通用人工智能(AGI)的唯一路径[4][17][28] - 空间智能的载体是全新的“世界模型”,其具备生成性、多模态和交互性三大核心能力,将取代以语言模型为中心的发展路线[17][18][38] AI当前局限与空间智能定义 - 大语言模型在需要物理世界理解的简单任务上表现不佳,例如无法准确回答杯子旋转90度后的样子或预测物体运动轨迹[5][8][36] - AI生成内容(如视频)经常出现违背物理定律的“穿帮”镜头,例如人物多出手指或物体穿墙而过,暴露了其缺乏对物理规律的基本认知[6][36] - 空间智能是人类与生俱来的基础认知能力,是想象力和创造力的“脚手架”,使人类能够进行侧方停车、接住抛来的钥匙、在黑暗中倒水等日常活动[12][14][32][34] - 人类历史上的重大科学发现和发明创造,如埃拉托斯特尼计算地球周长、沃森和克里克发现DNA双螺旋结构,都深刻依赖于空间智能[21][34] 世界模型的核心特征与技术挑战 - 世界模型必须同时具备三种基本能力:生成性(创造符合物理和几何规律的3D世界)、多模态(处理文本、图像、视频、深度信息、手势等多种输入)、交互性(预测动作指令下的世界状态变化)[18][22][39][40][41] - 构建世界模型的技术挑战远超语言模型,因为世界是四维(三维空间+时间)且受无数复杂物理定律约束,而语言只是一维的序列化信号[18][42] - 关键技术障碍包括:定义能同时反映几何和物理定律的通用训练任务函数、从海量互联网图像和视频等二维数据中提取深层空间信息、开发全新的三维或四维模型架构[44][45][46] 空间智能的应用前景与行业影响 - 在创意产业,World Labs的Marble模型将赋能电影制作人、游戏设计师和建筑师,通过自然语言提示词快速创建和迭代可交互的3D世界,大幅降低专业3D软件的使用门槛[23][49] - 在机器人技术领域,世界模型能通过模拟环境为机器人提供海量训练数据,使其掌握成千上万种实用技能,从而成为家庭、医院等场景中得力的助手和看护[23][52] - 在科学研究中,空间智能系统可模拟人类无法亲临的环境(如深海、外太空),并行测试假设,加速在材料科学、气候科学和医学等领域的发现进程[27][56] - 在教育领域,学生可通过沉浸式体验“走进”古罗马街道或细胞内部,教师能利用互动环境进行个性化教学,专业人士可在高度逼真的仿真环境中练习复杂技能[27][56]