3D/4D世界模型 - 财报，业绩电话会，研报，新闻

3D/4D世界模型

搜索文档

自动驾驶之心· 2025-09-04 23:33

具身智能与3D/4D世界模型研究现状 - 行业前三季度研究重点集中在数据收集和利用效率上旨在通过视频示例数据训练高性能基础模型但进展有限且未引起广泛关注[3] - 行业开始重新关注3D/4D世界模型通过对数据合理性和丰富性进行拓展优化来突破当前瓶颈[3] 隐式与显式世界模型技术路线 - 隐式3D世界模型通过提取3D/4D内容增强视频空间理解能力[7] - 显式3D世界模型需显式提供3D Mesh或结构信息及物理规律来保证系统稳定性[7] - 两种技术路线在应用初期均暴露明显局限性且行业尚未找到有效解决方案[6] 基于仿真器的物理差异化模拟器 - 当前显式世界模型研究集中于静态3D场景通过模型构建场景或扫描方式初始化3D环境[8] - Hunyuanworld-1.0和Matrix-3D通过构建全景图及恢复3D Mesh场景完成环境初始化[8] - Discoverse和EmbodiedGen采用前景背景分离构建方案背景使用全景/扫描3D 前景采用Mujoco物理仿真+3DGS渲染实现动态交互[8] - Genesis通过Taichi对Mujoco素材进行再渲染实现超高清场景重建[8] 3DGS技术挑战与优化方向 - 3DGS对物理表面建模效果存在缺陷 SuGaR和2DGS等结构化改造方案仍存在几何优化粗糙问题[9] - GSDF和Pano2Room将Mesh或SDF作为监督学习中的优化目标部分解决表面平滑问题但无法保障生成质量[9] - 完全弃用3DGS可能导致图形学问题如渲染饱和度过高和光照不平衡[9] - 光照优化通过De-lighting技术（如TSGS、GS-ID）推进表面问题通过Mesh监督结合结构化处理3DGS方案改善[10] 跨平台部署与数据规模化挑战 - 现有方案物理参数基于Mujoco设定跨平台部署至Isaac或SAPIEN存在兼容性问题[10] - Roboverse设计统一跨物理仿真器平台以优化世界模型的物理表达[10] - Phys-diff-simulator范式面临大规模数据扩展难题当前数据量远不足支撑模仿学习需求[10] 视频生成与多视角世界模型融合 - 通义万相模型证明规模化数据清洗和标注可提升运动预测能力[11] - Feed forward 3D技术强化3D信息预测推动3DGS/4DGS与世界模型结合（如GWM和Enerverse）[11] - Dust3R、Mono3R等技术演进至VGGT 实现单/少帧到稠密几何的一站式推理[11] - Robot4DGen开启模仿学习3R时代通过3R/3DGS技术补足视频中无法学习的3D空间知识[11] 2D转3D技术瓶颈 - 当前技术存在遮挡像素漂移、跨视角一致性不足等核心问题[12] - 视频动作空间不同步问题通过pixel-worldmodel scaling-up思路部分弥补[12] 4D生成技术分类与应用局限 - Template-base：以静态网格/骨架等模板为基础通过轨迹预测实现4D生成[13] - Generate-base：通过文本/图像生成3D模型再绑定视频运动数据构建4D模型[19] - 视频反演：从交互视频反演几何与物理参数得到可模拟4D内容[19] - 4D生成技术评价指标局限于重建画质和几何一致性缺乏物理交互状态变化的量化评估[14] - 视频生成模型难以理解物理变化规律仅能学习轨迹变化（如篮球运球中的状态不连贯）[14] 物理规律理解与仿真器融合趋势 - 视频生成模型短期内难以从数据反演物理规律仿真器物理驱动模拟仍不可替代[15] - 未来可能发展仿真器-视频生成组合方案（如RoboTransfer）但会限制视频生成模型进化为世界模型的潜力[15] 3D/4D世界模型发展定位与方向 - 当前3D/4D工作重点在几何一致性与图像质量而非世界模型核心的预测能力（对比V-JEPA 2体系）[16] - 未来三年行业将朝外挂/内嵌物理知识方向发展通过打破数据瓶颈重塑Real2Real具身智能任务[16] - 世界模型可能演变为具身智能基模中的模块化组件取决于功能简化与定义优化进程[16]