4D动态驾驶场景重建 - 财报，业绩电话会，研报，新闻

4D动态驾驶场景重建

搜索文档

自动驾驶之心· 2025-12-18 00:06

核心观点 - 清华大学与小米汽车联合推出DGGT框架，这是一个无需相机位姿标定、单次前向即可完成4D动态驾驶场景重建的模型，在速度、精度和跨数据集泛化能力上表现卓越，并具备强大的场景编辑功能，有望成为自动驾驶仿真与数据合成的核心工具 [1][6][21] 技术原理与架构 - DGGT采用Pose-Free设计，将相机位姿从输入转为模型输出，端到端预测内外参，从而打破跨数据集部署的校准壁垒 [6][8] - 模型采用ViT编码器融合DINO先验，通过多头联合预测结构，一次前向即可输出相机位姿、4D Gaussian、寿命、动态/运动、天空等完整的4D场景状态 [10][12] - 系统通过Lifespan Head建模场景随时间的外观演变，并通过单步扩散精修抑制运动插值伪影，提升时空一致性与渲染自然度 [3][12] 性能表现 - **重建速度与质量**：在Waymo数据集上，单场景推理时间约0.39秒，同时获得PSNR 27.41、SSIM 0.846的高保真重建质量，在速度与精度上优于前向与优化方法 [8][11] - **关键指标领先**：在Waymo数据集上，其深度误差（D-RMSE）为3.47，场景流估计误差（EPE3D）为0.183米，均优于对比方法 [11] - **零样本泛化能力强劲**：仅在Waymo上训练，无需微调即在nuScenes和Argoverse2数据集上实现超越SOTA的泛化性能，例如在nuScenes上LPIPS从0.394降至0.152（下降61.4%）[13][15] 核心优势与特点 - **强大的跨数据集泛化**：Pose-Free设计减少了对固定拍摄轨迹与相机配置的依赖，使模型在不同传感器布置下仍能维持良好性能，实现了跨域鲁棒性 [15] - **卓越的可扩展性**：支持任意数量的输入视角与长序列，当输入视角从4增至16时，其重建与新视角插值指标保持稳定，而对比方法性能明显下滑，更适合大规模工程化处理 [16] - **高度可编辑的4D场景生成**：模型输出包含相机姿态、深度、动态分割、3D Gaussian追踪等可编辑资产，支持在Gaussian层面直接对车辆、行人等实例进行添加、删除、移动等操作，扩散精修模块可自动补洞与平滑边界 [6][20][21] 组件功能与消融验证 - **Lifespan Head价值**：该组件负责刻画静态区域在不同时间的外观变化，消融实验显示，去除后PSNR从27.41大幅下降至24.21，证明其对维持时空一致性与真实感至关重要 [11][17] - **Motion Head作用**：负责预测像素级3D位移，将同一物体在相邻帧中对齐并插值，确保了运动物体在时间上的连续性与视觉自然度 [19] - **扩散精修效果**：虽然在定量指标上提升较小，但能有效抑制遮挡/插值产生的伪影与细节缺失，显著改善视觉效果，更适配下游任务 [11]

小米集团(HK:01810)

4D动态驾驶场景重建

自动驾驶

DGGT（Driving Gaussian Grounded Transformer）

4D动态驾驶场景重建

自动驾驶

DGGT（Driving Gaussian Grounded Transformer）

清华&小米最新DGGT：0.4秒完成4D自驾高斯重建，性能提升50%！

自动驾驶之心· 2025-12-08 00:02

点击下方卡片，关注" 自动驾驶之心 "公众号戳我-> 领取自动驾驶近30个方向学习路线 DGGT详解 DGGT 的核心思想是：一次前向就预测出"完整的4D场景状态"，并把相机位姿从前提变成结果。这使得系统无需外参标定即可从稀疏、未标定图像里恢复动态场景，而且能自然跨数据集部署。图1展示了DGGT 的整体能力与速度-精度位置：在 0.4 秒量级完成重建的同时，DGGT 在重建质量上超越一系列前向与优化方法，并将相机姿态、深度、动态分割、3D Gaussian、追踪等输出一并给出，便于后续实例级场景编辑。 >>自动驾驶前沿信息获取 → 自动驾驶之心知识星球论文作者 | Xiaoxue Chen等编辑 | 自动驾驶之心清华大学与小米汽车联合推出 DGGT（Driving Gaussian Grounded Transformer）：一个pose-free、feed-forward的4D动态驾驶场景重建框架。 DGGT 只需未标定的稀疏图像，单次前向即可同时输出相机位姿、深度、动态实例与基于 3D Gaussian 的可编辑场景表示。模型在 Waymo 上训练，却能在 nuScen ...

4D动态驾驶场景重建

自动驾驶

DGGT（Driving Gaussian Grounded Transformer）

4D动态驾驶场景重建

自动驾驶

DGGT（Driving Gaussian Grounded Transformer）