Workflow
3D场景编辑
icon
搜索文档
北大升级DrivingGaussian++:无需训练,智驾场景自由编辑!
自动驾驶之心· 2025-08-31 23:33
3D场景重建与编辑技术突破 - 提出DrivingGaussian++框架 实现大规模动态驾驶场景的高精度分层建模 通过复合高斯泼溅(Composite Gaussian Splatting)将场景分解为静态背景和动态目标分别重建[4] - 引入LiDAR先验提升几何精度 将多帧LiDAR扫描点云与环视图像配准 通过密集束调整(DBA)优化点云位置 显著改善多视图一致性和重建质量[11][25][26] - 采用增量静态3D高斯(Incremental Static 3D Gaussians)处理大规模背景 按时间顺序划分深度区间并逐步融合 解决透视变化导致的尺度混淆问题[27][29] - 构建复合动态高斯图(Composite Dynamic Gaussian Graphs)建模多目标 通过目标ID和时间戳跟踪动态元素 使用变换矩阵将目标坐标系转换到世界坐标系[31][32] 无需训练的场景编辑能力 - 开发无需训练的编辑框架 支持纹理修改 天气仿真和目标操纵三大任务 通过直接操作高斯粒子实现物理准确的编辑效果[18][19][20] - 纹理修改采用深度均衡化技术 对编辑区域深度图进行归一化处理 确保表面平整度 公式为$D_{\rm opt}(M_{\rm edit},x,y)=Average(D_{\rm ori}(M_{\rm edit},y))$[44][46] - 天气仿真通过粒子系统实现 雨滴使用狭窄半透明白色高斯 雪花采用不规则白色椭球高斯 雾采用随机分布高斯 并添加物理轨迹模拟动态效果[47] - 目标操纵支持删除和插入操作 利用3D边界框精确定位 对插入目标使用MCLight进行光照适配 并通过LLM生成运动轨迹预测[48][51] 性能表现显著领先 - 在nuScenes数据集上PSNR达28.74 SSIM达0.865 LPIPS降至0.237 全面优于Instant-NGP(PSNR 16.78) Mip-NeRF360(PSNR 22.61)和EmerNeRF(PSNR 26.75)[55][56] - 编辑效率显著提升 执行时间仅需3~10分钟 远低于InstructNeRF2NeRF的274分钟和ClimateNeRF的107分钟[70][71] - 在CLIP-direction相似性指标上达0.2327 超过InstructNeRF2NeRF(0.1570)和InstructGS2GS(0.0918) 体现卓越的文本对齐能力[71] - 单目视图重建在KITTI-360数据集表现优异 PSNR达25.62 SSIM达0.868 超过NeRF(21.94)和Point-NeRF(21.54)[59][60] 构建3D高斯前景资源库 - 创建包含车辆 行人 交通标志等元素的3D高斯前景库 支持直接插入场景编辑[62][74] - 通过在线模型重建 使用Blender渲染360度视图并结合COLMAP进行3DGS重建[76] - 对nuScenes车辆进行稀疏重建 每辆车仅需2~4张参考图像即可完成高斯重建[77] - 结合DreamGaussian和DreamGaussian4D实现基于图像的3D目标生成 扩展数据集多样性[77] 技术方案优势验证 - 消融实验证实LiDAR先验关键作用 使用LiDAR-2M点云时PSNR达28.78 显著优于随机初始化(22.23)和SfM点初始化(28.36)[79][80] - 复合动态高斯图模块贡献突出 移除后PSNR降至26.97 SSIM降至0.752 证明其对动态场景建模的重要性[82][83] - 损失函数设计有效 包含TSSIM损失和鲁棒损失后 纹理细节改善且伪影消除[37][38][84]