Workflow
DriveVGGT
icon
搜索文档
复旦最新一篇DriveVGGT:面向自动驾驶,高效实现多相机4D重建
自动驾驶之心· 2025-12-17 00:03
核心观点 - 研究团队提出了一种名为DriveVGGT的新型视觉几何Transformer模型,专门用于解决自动驾驶场景中多相机、低重叠视野下的4D场景重建难题 [2] - 该模型通过显式引入并有效利用相机相对位姿先验,显著提升了多相机系统的几何预测一致性与推理效率 [2] - 在nuScenes数据集上的实验表明,DriveVGGT在相机位姿估计、深度估计的精度以及推理速度上均优于现有的VGGT系列方法 [11][24][27][30] 技术背景与挑战 - 4D场景重建是从视觉传感器预测几何信息的关键任务,基于相机的方案因低成本在自动驾驶领域被广泛研究 [5] - 前向方法(如VGGT)能直接输出预测,无需迭代优化,泛化能力更强,但在应用于自动驾驶多相机系统时面临两大局限 [5][6] - 局限一:自动驾驶车辆摄像头为平衡视场与成本,视角差异大、图像重叠度低,模型难以识别相似特征并预测有效的图像位姿关系 [6] - 局限二:摄像头相对位姿标定信息易于获取,但因其与前向模型预测结果存在尺度差异,无法直接有效利用,导致几何标记间尺度模糊 [6] DriveVGGT模型架构与创新 - 模型旨在充分利用相机相对位姿信息,提升相机位姿估计和深度估计等几何任务的性能 [10] - 提出一个高效的两阶段流程处理多相机图像 [11] - 第一阶段:使用时序视频注意力模块独立处理每个相机的视频序列,利用单相机序列中的时空连续性,初步输出序列位姿和几何标记 [9][13] - 第二阶段:提出多相机一致性注意力模块,通过将归一化的相对位姿嵌入作为额外标记注入,并采用窗口注意力机制,实现不同摄像头图像在有限序列长度内的交互,建立一致性关系 [9][11][15] - 引入相对位姿嵌入模块,对真实世界相机位姿进行归一化并映射到与模型标记相同的维度,以缓解输入输出间的尺度差异 [14] - 最终,预测头将优化后的特征解码为相对位姿、序列位姿和深度的预测结果 [16] 实验结果与分析 - **实验设置**:在nuScenes数据集上进行,该数据集包含6个低重叠摄像头采集的图像,使用700个场景训练,150个验证,图像分辨率从1600x900降至518x280 [19][23] - **位姿估计性能**:在输入210张图像(35帧)的场景中,DriveVGGT(VGGT)的AUC(30)指标达到0.7200,优于原始VGGT的0.6871和fastVGGT的0.6830 [24][25] - **深度估计性能**:在35帧场景中,DriveVGGT(fastVGGT)的Abs Rel指标达到0.3539,表现最佳,显示了其处理长序列多相机视频的能力 [27][29] - **推理速度**:DriveVGGT(VGGT)在35帧场景中的推理时间仅为原始VGGT的50%,实现了更快的推理速度 [30] - **消融实验**:验证了各模块的有效性,仅使用时序视频注意力的基线模型AUC(30)仅为0.039,加入相对位姿嵌入后提升至0.7855,完整DriveVGGT达到0.8010 [34][36] - **窗口注意力**:测试表明窗口大小为3时能在性能与效率间取得最佳平衡 [38] - **尺度预测**:基于尺度的对齐方法在15帧场景下将Abs Rel从0.3805降至0.3666,证明了尺度预测头能将深度转换至真实世界尺度的有效性 [39][40]