三维表征

搜索文档
从 ChatGPT 到 Marble,李飞飞押注的下一个爆发点是 3D 世界生成?
锦秋集· 2025-09-18 07:33
文章核心观点 - 李飞飞创立的World Labs推出空间智能模型Marble 其核心突破在于通过一张图片或文本提示生成持久存在且可自由导航的3D世界 在几何一致性、风格多样性、世界规模和跨设备支持上显著优于同类产品[1][2] - Marble并非孤立产品 而是李飞飞"世界模型-空间智能-三维表征"思路的集中落地 代表从语言理解到世界理解再到AGI的演进路径[3][6] - 世界模型被视为AI发展的第三阶段范式 其核心在于三维表征与时空一致性 而不仅是多模态拼接 这将推动内容生产、机器人和AR/VR领域的变革[6][21][29] 大语言模型边界与空间智能必要性 - 大语言模型在写作、推理等任务中展现强大能力 但其基于一维序列的结构无法原生理解三维世界 语言作为有损编码方式难以传递几何、物理和时序因果信息[5][9][10] - 二维像素和视频输入不会自动生成三维结构 关键在模型内部表征需原生支持三维表达 满足可微渲染、视角一致性和物理一致性要求[11][14] - 空间智能是AGI的必要条件 因为世界本质是三维的 二维观测是不完备投影 且语言训练信号是纯生成的 无法替代对三维结构的直接建模[16] 世界模型的技术实现路径 - 数据策略采用混合路径:真实采集+重建生成+仿真合成 以解决三维数据匮乏问题 同时强调数据质量与一致性约束的重要性[20][26] - 算法层面注重"重建与生成合流" 同一套三维表示既能重建真实场景 也能生成虚拟世界 NeRF等方法让小规模算力也能实现原创突破[20][24] - 算力资源配置体现学术与产业分工:工业界侧重系统工程与产品化 学术界专注表示方法和跨模态原理研究[25] 产业发展与落地节奏 - 内容生产为首要落地场景 目标将3D内容生成成本从AAA游戏级降至创作者可及水平 应用覆盖游戏、虚拟摄影、工业设计和教育领域[6][29] - 机器人被视为天然应用场景 空间智能连接数字脑与物理界面 但需先打磨三维表示与交互能力 再承接高风险实体操作[30] - AR/VR作为后续发展阶段 需实现从静态场景到动态要素、可交互性和场景语义的逐步演进[29] 范式演进与投资逻辑 - AI发展遵循三要素共振规律:数据×算力×算法 ImageNet时代是二维标注数据驱动 世界模型时代是三维表示驱动[18][21][23] - 范式演进分为三阶段:监督学习(ImageNet)→生成式建模(扩散/GAN)→三维世界模型(重建×生成)[21][24] - 投资逻辑围绕"找到时代最被低估的数据形态" 三维表示被视为当前最具潜力的数据形态[21][23]