全景视觉的Depth Anything来了!Insta360推出DAP,200万数据打造全场景360°空间智能新高度
机器之心·2025-12-29 08:22

模型发布与核心意义 - 研究团队推出了首个在大规模多样化数据集上训练的全景度量深度基础模型Depth Any Panoramas,旨在解决全景深度估计领域长期面临的“数据荒”与“模型泛化差”瓶颈 [2] - 该模型统一了室内外场景,通过200万量级的数据引擎与创新的几何一致性设计,刷新了多项基准测试纪录,在多种开放世界场景下保持优异效果 [2] - DAP的出现标志着全景深度估计正式进入了开放世界时代,为自动驾驶、机器人避障提供更广阔的全知视角,并为3D场景重建、VR/AR内容创作提供了极低成本的深度获取手段 [20] 数据引擎构建 - 为突破数据规模限制,团队构建了规模空前的全景数据引擎,将数据量推向了200万级别 [7] - 数据来源包括:从互联网收集并精细过滤的170万张真实全景图;利用基于虚幻引擎5的AirSim360模拟器生成的9万张高质量室外航拍数据;以及引入DiT360模型生成的20万张室内全景图 [9] - 数据构成覆盖室内场景50万张,室外场景150万张,其中合成数据30万张,真实世界数据170万张 [8] 模型训练与架构设计 - 模型采用三阶段伪标签精炼管线来淬炼高质量监督信号:第一阶段使用小规模精准合成数据训练场景不变标注器;第二阶段引入深度质量判别器,从190万预测结果中筛选出最靠谱的60万样本再次训练;第三阶段在汇集了精炼伪标签和原始强监督标签的200万数据集上完成最终训练 [10][11] - 模型架构采用DINOv3-Large作为特征提取骨干,并设计了距离自适应分支,允许用户根据应用场景切换深度感知范围 [15][16] - 引入了包括SILog损失、锋利度损失、表面法线损失以及点云一致性损失在内的联合优化,专门针对全景图的等距柱状投影进行了畸变补偿 [16] 性能表现 - 在极具挑战性的户外测试集Deep360 / DAP-Test中,DAP的绝对相对误差为0.0781,显著超越了此前DAC的0.3197和Unik3D的0.2517 [17][18] - 在室内场景的零样本测试中,DAP的绝对相对误差大幅下降,在没有进行任何微调的情况下保持了极高的预测一致性 [17] - 模型对由Gemini或DiT-360等合成的全景图展现出了极佳的预测效果,生成的深度图边缘锐利、逻辑自洽,并且在处理全景视频流时具备优秀的帧间一致性与稳定性 [4]