WorldSplat
搜索文档
AI Day直播 | WorldSplat:用于自动驾驶的高斯中心前馈4D场景生成
自动驾驶之心· 2025-11-19 00:03
文章核心观点 - 南开大学等研究团队提出了一种名为WorldSplat的全新前馈式4D驾驶场景生成框架,该框架旨在破解场景生成与重建之间的困境,能够高效生成高保真、时空一致的多轨迹新视角驾驶视频,以支持自动驾驶系统的训练数据扩展 [3][8] 技术背景与现有方法局限 - 现有驾驶场景生成方法大多聚焦于合成多样化、高保真的驾驶视频,但受限于3D一致性不足且视角覆盖稀疏,难以支持便捷且高质量的新视角合成 [3] - 近期的3D/4D重建类方法虽大幅改进了真实驾驶场景的新视角合成效果,但本质上缺乏生成能力 [3] WorldSplat框架概述 - WorldSplat是一个结合生成与重建能力的4D驾驶场景生成框架 [8] - 该方法通过两个关键步骤高效生成具备一致性的多轨迹视频 [3] - 第一步是引入融合多模态信息的4D感知潜在扩散模型,以前馈方式生成像素对齐的4D高斯分布 [3] - 第二步是利用增强型视频扩散模型,对基于这些高斯分布渲染出的新视角视频进行优化 [3] - 该框架可一次性生成多视角、时间空间一致的动态驾驶场景,并支持任意轨迹的新视角视频合成 [8] 技术优势与实验效果 - 在基准数据集上开展的大量实验表明,WorldSplat能够有效生成高保真、时空一致的多轨迹新视角驾驶视频 [3] - 该技术让世界模型具备几何一致性,并实现可控的多视角/多轨迹驾驶场景生成 [10] 相关活动与资源 - 文章预告了由WorldSplat第一作者、南开大学博士生朱子悦主讲的直播,直播时间为11月19日19:30-20:30 [4][8] - 相关论文标题为“WorldSplat: Gaussian-Centric Feed-Forward 4D Scene Generation for Autonomous Driving”,并提供了论文链接与项目主页 [5]
最新世界模型!WorldSplat:用于自动驾驶的高斯中心前馈4D场景生成(小米&南开)
自动驾驶之心· 2025-10-02 03:04
核心观点 - WorldSplat是一种前馈式4D生成框架,将生成式扩散与显式3D重建相融合,用于自动驾驶场景合成[6] - 该方法通过4D感知潜在扩散模型生成像素对齐的4D高斯分布,再通过增强型扩散模型优化新视角视频,实现高保真、具备时空一致性的多轨迹驾驶视频生成[4][6] - 在基准数据集上的实验表明,WorldSplat在FVDmulti指标上达到16.57,FIDmulti指标达到4.14,显著优于现有方法[31] 技术框架 - 框架包含三个关键模块:4D感知潜在扩散模型、潜在高斯解码器和增强型扩散模型[10] - 4D感知潜在扩散模型以边界框、道路草图、文本描述及自车轨迹为条件,生成多模态潜变量[14][16] - 潜在高斯解码器从潜变量中预测像素对齐的3D高斯分布,并聚合为4D高斯表示[20][22] - 增强型扩散模型对基于高斯分布渲染的视频进行优化,提升细节真实感和时间连贯性[24][27] 算法创新 - 提出动态感知高斯解码器,能直接从多模态潜变量推断精确的3D高斯分布,支持多达48个输入视角[12][21] - 采用静-动态分解方案,将高斯分布划分为静态背景与动态目标,实现4D场景重建[20][22] - 引入混合条件策略,融合退化视角与高质量视角,提升生成保真度与可控性[27] 性能表现 - 在主实验对比中,WorldSplat在FVDmulti指标上达到16.57,较DriveDreamer-2的55.70提升约70%[31] - 在新视角合成任务中,横向偏移±4m时FID T指标为13.38,显著优于Street Gaussian的67.44和OmniRe的67.36[32] - 在下游任务评估中,方法在mIoU指标上达到38.49,较MagicDrive-V2的20.40提升约89%[35] 应用价值 - 支持丰富条件输入包括道路草图、文本描述、动态目标放置与自车轨迹,成为高可控性驾驶模拟器[6] - 生成的合成数据能提升下游感知模型性能,使mAP指标从34.5提升至38.5,相对提升11.6%[35] - 框架无需逐场景优化,可直接沿任意用户定义相机轨迹渲染新视角视频,支持灵活闭环评估[6][23]