Workflow
Real2sim2Real
icon
搜索文档
3D/4D World Model(WM)近期发展的总结和思考
具身智能之心· 2025-09-18 00:03
具身智能行业研究核心观点 - 行业研究重点从数据收集利用转向3D/4D世界模型开发 以解决数据合理性和丰富性问题[3] - 当前技术路线分化为隐式与显式两种世界模型 均存在明显局限性且尚未找到有效解决方案[4][7] - 物理仿真与视频生成技术融合成为突破方向 但跨平台部署和大规模数据扩展仍是关键挑战[9][14] 3D物理仿真器研究现状 - 显式世界模型集中于静态3D场景构建 通过模型构建或扫描方式初始化环境 典型代表包括Hunyuanworld-1.0和Matrix-3D项目[5] - 动态物理模拟采用前景背景分离方案 使用Mujoco/Mujoco-Warp进行物理仿真结合3DGS渲染 如Discoverse和EmbodiedGen项目[5] - 高保真场景重建通过Taichi对Mujoco素材再渲染实现 代表项目Genesis追求超高画质输出[5] 3DGS技术局限与优化 - 3DGS表面建模存在明显缺陷 SuGaR和2DGS等技术尝试结构化改造但几何优化仍较粗糙[8] - GSDF和Pano2Room采用Mesh/SDF监督优化 部分解决表面平滑问题但输出质量稳定性不足[8] - 完全弃用3DGS可能导致图形学新问题 如渲染饱和度过高和光照不平衡等视觉差异[8] 跨平台部署与数据扩展 - 物理参数设计主要基于Mujoco标准 在Isaac和SAPIEN等平台存在兼容性问题[9] - Roboverse项目开发统一跨平台仿真器 旨在优化世界模型的物理表达一致性[9] - 物理微分仿真范式面临数据扩展难题 动作表达灵活性不足以满足模仿学习数据需求[9] 视频生成与多视角技术融合 - 通义万相模型证明数据规模化清洗提升运动预测能力 Feed forward 3D技术强化3D信息估计[10] - 3DGS/4DGS与世界模型结合项目涌现 如GWM和Enerverse利用3R技术增强空间理解[10] - Dust3R到VGGT技术演进实现单帧到稠密几何的一站式推理 Robot4DGen开启模仿学习3R时代[10] 4D生成技术分类与挑战 - 模板生成法使用静态网格/骨架为基础 通过LBS/BlendShapes等技术实现4D生成[13] - 生成式方法从文本/图像生成3D模型 再通过视频绑定运动内容完成4D构建[13] - 视频反演法从交互视频提取几何物理 获得可模拟4D内容但技术成熟度较低[13] 技术发展路径预测 - 未来三年将外挂或内嵌物理知识发展方向 通过物理理解能力突破打破数据瓶颈[15] - 世界模型可能演变为具身智能基模的模块化组件 功能简化但保持核心预测能力[15] - 仿真器-视频生成组合方案如RoboTransfer将成为过渡 但可能限制视频模型进化潜力[14]
3D/4D World Model(WM)近期发展的总结和思考
自动驾驶之心· 2025-09-16 23:33
文章核心观点 - 行业对具身智能的研究重点已从单纯的数据利用转向3D/4D世界模型的构建,旨在解决数据采集的合理性与丰富性问题 [3] - 当前3D/4D世界模型的研究分化为隐式和显式两大技术路线,但均存在局限性,未来发展方向是外挂或内嵌物理知识以提升模型的物理理解与预测能力 [4][7][16] 3D/4D世界模型技术路线 - 隐式3D世界模型通过提取3D/4D内容来增强视频的空间理解能力 [7] - 显式3D世界模型需依赖显式的3D Mesh等结构信息和物理规律来保证系统稳定 [7] 基于仿真器的显式世界模型研究 - 当前研究集中于静态3D场景构建,通过模型构建场景再解耦,或通过扫描方式初始化3D场景 [8] - 多项工作尝试完善世界模型的工作闭环,例如Discoverse和EmbodiedGen将环境构建区分为前景与背景,结合物理仿真与渲染 [8] - 存在3DGS与Mesh方案对表面建模效果不佳、跨物理仿真器平台部署困难以及难以进行大规模数据扩展等问题 [9][10] 基于视频生成/多视角的世界模型研究 - 得益于Feed forward 3D技术的进步,3DGS/4DGS与世界模型的结合工作开始发展 [11] - 3R技术(如Dust3R, Mono3R)的演进实现了从单/少帧到稠密几何的一站式推理,帮助模型学习3D空间知识 [11] - 该技术路线的核心问题在于2D到3D转换不成熟,存在像素漂移和难以保持跨视角一致性的挑战 [12] 4D生成技术及其挑战 - 当前4D生成技术主要分为三类:基于模板、基于生成以及从交互视频反演几何与物理 [13][19] - 将4D生成迁移到仿真环境面临挑战,视频生成模型难以从数据中反演物理规律,导致物体交互后的状态变化不连贯 [14] - 基于仿真器的物理驱动模拟短期内不会被取代,未来可能发展仿真器-视频生成组合的工作方式 [15] 未来发展趋势 - 未来3年,行业工作将朝外挂或内嵌物理知识的方向发展,以增强模型的直接物理理解与视觉推理能力 [16] - 世界模型可能最终发展成具身智能基模架构中的一个模块化组件 [16]
关于3D/4D 世界模型近期发展的总结和思考
自动驾驶之心· 2025-09-04 23:33
具身智能与3D/4D世界模型研究现状 - 行业前三季度研究重点集中在数据收集和利用效率上 旨在通过视频示例数据训练高性能基础模型 但进展有限且未引起广泛关注[3] - 行业开始重新关注3D/4D世界模型 通过对数据合理性和丰富性进行拓展优化来突破当前瓶颈[3] 隐式与显式世界模型技术路线 - 隐式3D世界模型通过提取3D/4D内容增强视频空间理解能力[7] - 显式3D世界模型需显式提供3D Mesh或结构信息及物理规律来保证系统稳定性[7] - 两种技术路线在应用初期均暴露明显局限性 且行业尚未找到有效解决方案[6] 基于仿真器的物理差异化模拟器 - 当前显式世界模型研究集中于静态3D场景 通过模型构建场景或扫描方式初始化3D环境[8] - Hunyuanworld-1.0和Matrix-3D通过构建全景图及恢复3D Mesh场景完成环境初始化[8] - Discoverse和EmbodiedGen采用前景背景分离构建方案 背景使用全景/扫描3D 前景采用Mujoco物理仿真+3DGS渲染实现动态交互[8] - Genesis通过Taichi对Mujoco素材进行再渲染实现超高清场景重建[8] 3DGS技术挑战与优化方向 - 3DGS对物理表面建模效果存在缺陷 SuGaR和2DGS等结构化改造方案仍存在几何优化粗糙问题[9] - GSDF和Pano2Room将Mesh或SDF作为监督学习中的优化目标 部分解决表面平滑问题但无法保障生成质量[9] - 完全弃用3DGS可能导致图形学问题 如渲染饱和度过高和光照不平衡[9] - 光照优化通过De-lighting技术(如TSGS、GS-ID)推进 表面问题通过Mesh监督结合结构化处理3DGS方案改善[10] 跨平台部署与数据规模化挑战 - 现有方案物理参数基于Mujoco设定 跨平台部署至Isaac或SAPIEN存在兼容性问题[10] - Roboverse设计统一跨物理仿真器平台以优化世界模型的物理表达[10] - Phys-diff-simulator范式面临大规模数据扩展难题 当前数据量远不足支撑模仿学习需求[10] 视频生成与多视角世界模型融合 - 通义万相模型证明规模化数据清洗和标注可提升运动预测能力[11] - Feed forward 3D技术强化3D信息预测 推动3DGS/4DGS与世界模型结合(如GWM和Enerverse)[11] - Dust3R、Mono3R等技术演进至VGGT 实现单/少帧到稠密几何的一站式推理[11] - Robot4DGen开启模仿学习3R时代 通过3R/3DGS技术补足视频中无法学习的3D空间知识[11] 2D转3D技术瓶颈 - 当前技术存在遮挡像素漂移、跨视角一致性不足等核心问题[12] - 视频动作空间不同步问题通过pixel-worldmodel scaling-up思路部分弥补[12] 4D生成技术分类与应用局限 - Template-base:以静态网格/骨架等模板为基础 通过轨迹预测实现4D生成[13] - Generate-base:通过文本/图像生成3D模型 再绑定视频运动数据构建4D模型[19] - 视频反演:从交互视频反演几何与物理参数得到可模拟4D内容[19] - 4D生成技术评价指标局限于重建画质和几何一致性 缺乏物理交互状态变化的量化评估[14] - 视频生成模型难以理解物理变化规律 仅能学习轨迹变化(如篮球运球中的状态不连贯)[14] 物理规律理解与仿真器融合趋势 - 视频生成模型短期内难以从数据反演物理规律 仿真器物理驱动模拟仍不可替代[15] - 未来可能发展仿真器-视频生成组合方案(如RoboTransfer) 但会限制视频生成模型进化为世界模型的潜力[15] 3D/4D世界模型发展定位与方向 - 当前3D/4D工作重点在几何一致性与图像质量 而非世界模型核心的预测能力(对比V-JEPA 2体系)[16] - 未来三年行业将朝外挂/内嵌物理知识方向发展 通过打破数据瓶颈重塑Real2Real具身智能任务[16] - 世界模型可能演变为具身智能基模中的模块化组件 取决于功能简化与定义优化进程[16]