4DNeX

搜索文档
一张图,开启四维时空:4DNeX让动态世界 「活」起来
机器之心· 2025-08-18 03:22
研究背景 - 世界模型成为AI研究高频热词 Google DeepMind的Genie 3能在高质量游戏数据上生成长达数分钟的交互式视频但缺乏真实场景验证 [5] - 构建动态3D世界模型的关键在于刻画物理定律支持虚拟中的反事实推演这是下一代AR/VR与具身智能的研究基石也是迈向可信AGI的必经之路 [5] - 4D世界模型构建的三大挑战在于数据稀缺性、多模态表征设计以及生成架构优化 [6][9] 4DNeX-10M数据集 - 发布近千万帧带伪标签的超大规模4D视频数据集覆盖室内外环境、自然景观与人体运动等多元主题尤其以海量"以人为中心"数据为特色 [10] - 数据集构建采用全自动管线:单目实拍视频经光流一致性、亮度统计等多轮清洗后由LLaVA-Next Video打标静态场景用Dust3R重建动态场景用Monst3R/MegaSam输出半稠密点云图 [14] - 数据源整合Pexels、Vimeo等公开视频库以及RealEstate-10K、DL3DV等静态数据集通过联合置信度与运动平滑度阈值确保质量 [14] 4DNeX方法架构 - 提出6D统一表征:用RGB序列刻画外观(3维)XYZ序列编码几何(3维)无需显式相机控制即可同步生成多模态内容 [16] - 关键技术突破为"宽度融合"策略将RGB与XYZ在token宽度维度直接拼接跨模态距离最低相比通道融合减少预训练分布干扰 [18] - 网络骨架基于Wan2 1视频扩散模型通过LoRA微调适配采用斜坡深度初始化、归一化坐标校正等策略确保物理自洽 [20][24] 实验结果 - VBench测试显示动态幅度达100%(超越Free4D的40 1%)时空一致性96 8%用户研究中85%偏好其生成效果 [23] - 对比实验中运动幅度与真实感优势显著:对4Real的时空一致性对比为85%/15%审美评分93%/7%对GenXD达100%/0% [25][26] - 消融实验证实宽度融合策略最优能消除通道融合的噪声问题其他方案如批处理融合存在对齐失败缺陷 [26][28] 技术应用 - 实现单图输入输出连贯动态点云序列新视角合成在真实场景中保持几何一致性树叶摇曳幅度等细节表现优于基线模型 [23] - 生成效果可支持AR/VR内容创作、数字孪生构建等场景为具身智能提供高保真环境模拟能力 [5][16]