OmniRe全新升级!自驾场景重建色彩渲染和几何渲染双SOTA~
自动驾驶之心·2025-07-27 14:41

文章核心观点 - 为解决自动驾驶三维重建中因光照、相机参数和视角变化导致的“色彩不一致性”问题,提出了一种创新的多尺度双边网格框架,该框架统一了全局外观编码和局部双边网格,实现了对复杂光影变化的精确建模,从而显著提升了动态场景重建的几何精度和视觉真实感 [1] 研究动机与问题 - 神经渲染技术对自动驾驶系统的开发与测试至关重要,但其高度依赖多视角图像间的色彩一致性 [5] - 真实驾驶场景中,光照条件、天气变化及不同摄像头内在参数差异会引入显著的色彩不一致,导致重建出错误的几何(如“浮空片”伪影)和失真的纹理 [5] 现有解决方案的局限性 - 外观编码方法:为每张图学习一个全局编码来校正色彩,但只能进行整体调整,无法处理场景内的局部光影变化(如物体投下的阴影) [9] - 双边网格方法:能够实现像素级的精细色彩调整,更灵活,但其优化过程非常复杂,在大型场景中容易出现不稳定、效果不佳等问题 [9] 核心贡献与方法 - 提出了一个新颖的多尺度双边网格,无缝统一了全局的外观编码和局部的双边网格,能够根据尺度变化自适应地进行从粗到细的色彩校正 [9] - 通过有效解决色彩不一致性问题,显著提升了动态驾驶场景重建的几何精度,有效抑制了“浮空片”等伪影 [9] - 方法具有良好的通用性和兼容性,将其集成到现有的SOTA模型(如ChatSim、StreetGS)中,能一致地带来显著的性能提升 [9] 方法流程详述 - 场景表示与初始渲染:采用高斯溅射技术对驾驶场景进行建模,场景被分解为包含天空、静态背景和动态物体的混合场景图,渲染得到初步但带有光度不一致问题的图像 [12] - 多尺度双边网格校正:初步渲染的图像被送入一个由三个不同尺度双边网格组成的“金字塔”结构进行处理 [13] - 粗糙层:一个极小的网格(例如2×2×1×12),负责捕捉并校正场景级的整体光照和色调偏差,作用类似于全局外观编码 [13] - 中间层:一个中等尺寸的网格(例如4×4×2×12),处理区域性的光影变化,例如大块的阴影或光斑 [13] - 精细层:一个尺寸较大的网格(例如8×8×4×12),进行像素级的精细微调,精确恢复物体的局部细节和材质 [13] - 由粗到细的融合校正:通过函数式复合的方式将三个网格串联起来,亮度图引导粗糙层网格先进行全局校正,输出结果再依次经中间层和精细层处理,实现逐级传递、残差式优化 [14] 优化策略与适应性 - 训练策略:采用由粗到细的优化策略,为粗糙层网格分配较高的学习率,为精细层网格分配较低的学习率,确保先学习全局色彩基调,再逐步优化局部细节 [15] - 优化目标:使用复合损失函数,包括核心的重建损失(结合L1损失和结构相似性指数)、几何损失(计算渲染深度图与激光雷达真实深度数据之间的损失),以及循环正则化损失和自适应总变分正则化,以提升图像质量和模型鲁棒性 [15] - 动态渲染与ISP适配:为适应真实世界中动态变化的图像信号处理器参数,提出了一种动态插值策略,对新时间戳的图像,找到时间上最近的两个训练时间戳,对其粗糙和中等尺度网格进行线性插值,生成用于新图像渲染的网格 [15] 实验结果:定量评估 - 在Waymo、NuScenes、Argoverse和PandaSet四个主流自动驾驶数据集上进行了全面评估 [17] - 几何精度显著提升:在所有测试数据集上都稳定地优于所有基线模型,在Waymo数据集上,将关键的倒角距离指标从基线模型的1.378大幅降低至0.989 [18] - 外观真实感刷新SOTA:在外观保真度上,PSNR和SSIM指标在所有数据集的全图像重建中均取得了最高分,在NuScenes数据集上,针对“车辆”类别的渲染PSNR达到了27.31,超越了基线模型的最佳结果26.52 [20] - 对现有SOTA模型的增强能力:将核心模块集成到ChatSim和StreetGS中,带来巨大提升,例如将ChatSim的重建PSNR从25.10提升至27.04;将StreetGS的重建PSNR从25.74提升至27.90,并将其几何误差从1.604降低到1.272 [21] 实验结果:定性评估 - 有效抑制视觉伪影:与依赖单一外观编码或双边网格的基线方法相比,本文的统一框架能生成更清晰、更完整的几何结构,有效减少由光影突变导致的几何错误,并显著抑制“漂浮物”伪影 [24] - 驾驭多样化挑战:方法被证实能够稳健地处理各种极端情况,包括物体表面的高光反射、快速移动车辆造成的运动模糊、夜晚或隧道中的低光照环境,以及由遮挡或视角限制导致的不完整几何 [24] - 几何精度优越性可视化:通过误差颜色图对比,本文方法所生成的场景中高误差区域显著减少,表明其重建的几何模型与真实世界更为贴合 [29] - 方法有效性剖析:通过直方图可视化,本文多尺度方法学习到的色彩变换集合平滑且分散,表明其能够从全局、区域到像素级别进行平滑过渡和精细调整,适应性强 [31]