运动恢复结构(SfM)

搜索文档
港科&地平线&浙大联手开源SAIL-Recon:三分钟重建一座城
自动驾驶之心· 2025-09-02 23:33
文章核心观点 - SAIL-Recon提出一种结合场景回归与定位的大规模运动恢复结构(SfM)方法 通过少量锚图像提取神经场景表征 实现数千张图像的高效精确重建 在精度和效率上均超越传统及学习方法 [5][7][10][34] 技术方法 - 采用锚图像采样策略 通过Transformer提取神经场景表征 并基于此对所有图像执行联合位姿与结构估计 [9][11] - 使用DINOv2提取图像特征 结合相机token与寄存器token 通过自注意力层和DPT头预测深度图及场景坐标图 [13] - 引入注意力掩码机制 使查询图像仅与锚图像表征交互 并通过相机头直接回归位姿 [17][19] - 训练阶段采用多任务损失函数 推理阶段通过KV-Cache缓存键值以节省GPU内存 [11][20] 性能表现 - 在Tanks & Temples数据集上 平均每场景处理300+张图像 FFD版本达到70.4% RRA@5和74.7% RTA@5 误差仅0.008 耗时233秒 [21][26] - 在7-Scenes数据集定位任务中 平均精度达93.8% 与ACE0持平 但训练加定位总耗时仅8分钟 远低于ACE0的2小时 [32] - 新视角合成任务中 PSNR指标全面领先:Mip-NeRF 360数据集平均PSNR达19.5 超越DROID-SLAM的16.9和BARF的18.1 [33] - 锚图像数量从10张降至2张时精度仅缓慢下降 300 token/图像配置实现精度与速度平衡 [32] 效率优势 - 处理数千张图像仅需数分钟 显著快于COLMAP的1977秒和ACE0的5499秒 [21][32] - 无需逐场景训练 支持大规模场景一次性前馈推理 后优化阶段10k次迭代仅需2-10分钟 [7][24] - 在TUM-RGBD数据集实现与SLAM相当的精度 且无需相机内参 [32]