3D/4D World Model(WM)近期发展的总结和思考
自动驾驶之心·2025-09-16 23:33

文章核心观点 - 行业对具身智能的研究重点已从单纯的数据利用转向3D/4D世界模型的构建,旨在解决数据采集的合理性与丰富性问题 [3] - 当前3D/4D世界模型的研究分化为隐式和显式两大技术路线,但均存在局限性,未来发展方向是外挂或内嵌物理知识以提升模型的物理理解与预测能力 [4][7][16] 3D/4D世界模型技术路线 - 隐式3D世界模型通过提取3D/4D内容来增强视频的空间理解能力 [7] - 显式3D世界模型需依赖显式的3D Mesh等结构信息和物理规律来保证系统稳定 [7] 基于仿真器的显式世界模型研究 - 当前研究集中于静态3D场景构建,通过模型构建场景再解耦,或通过扫描方式初始化3D场景 [8] - 多项工作尝试完善世界模型的工作闭环,例如Discoverse和EmbodiedGen将环境构建区分为前景与背景,结合物理仿真与渲染 [8] - 存在3DGS与Mesh方案对表面建模效果不佳、跨物理仿真器平台部署困难以及难以进行大规模数据扩展等问题 [9][10] 基于视频生成/多视角的世界模型研究 - 得益于Feed forward 3D技术的进步,3DGS/4DGS与世界模型的结合工作开始发展 [11] - 3R技术(如Dust3R, Mono3R)的演进实现了从单/少帧到稠密几何的一站式推理,帮助模型学习3D空间知识 [11] - 该技术路线的核心问题在于2D到3D转换不成熟,存在像素漂移和难以保持跨视角一致性的挑战 [12] 4D生成技术及其挑战 - 当前4D生成技术主要分为三类:基于模板、基于生成以及从交互视频反演几何与物理 [13][19] - 将4D生成迁移到仿真环境面临挑战,视频生成模型难以从数据中反演物理规律,导致物体交互后的状态变化不连贯 [14] - 基于仿真器的物理驱动模拟短期内不会被取代,未来可能发展仿真器-视频生成组合的工作方式 [15] 未来发展趋势 - 未来3年,行业工作将朝外挂或内嵌物理知识的方向发展,以增强模型的直接物理理解与视觉推理能力 [16] - 世界模型可能最终发展成具身智能基模架构中的一个模块化组件 [16]