3D视觉被过度设计？字节Depth Anything 3来了，谢赛宁点赞

文章核心观点 - 字节跳动团队发布Depth Anything 3 (DA3)模型，证明3D视觉研究存在过度设计问题，仅需简单Transformer架构和单一深度光线预测目标即可实现强大空间感知能力[1][2][3] - DA3在姿态估计方面比当前最先进方法(SOTA)提升44%，在几何估计方面提升25%，并在10项任务中均取得新SOTA成绩[7][14] - 该模型采用最小化建模理念，仅使用标准预训练视觉Transformer作为骨干网络，无需专门架构设计[9][12] 技术方法创新 - 采用简单Transformer架构(如原始DINOv2编码器)作为骨干网络，避免复杂架构设计[9][12] - 使用单一深度光线预测目标替代复杂多任务学习[9][12] - 引入输入自适应的跨视图自注意力机制，实现动态重新排列token以支持任意数量视图处理[13] - 提出新型双DPT头，通过处理同一组特征联合输出深度值和光线值[13] 性能表现 - 在相机姿态精度方面比之前SOTA VGGT平均提高35.7%，在几何精度方面提高23.6%[14] - 单目深度估计性能优于Depth Anything V2，同时在细节和鲁棒性方面表现相当[14] - 大规模场景SLAM应用中，仅替换VGGT-Long中的VGGT就能显著降低漂移，效果优于需要48小时以上完成的COLMAP[19] 应用场景 - 视频重建：能从任意数量视图中恢复视觉空间，涵盖单视图到多视图范围[17] - 前馈3D高斯估计：通过冻结主干网络训练DPT头部预测3DGS参数，实现强大新颖视图合成能力[20] - 多摄像头空间感知：从车辆不同视角估计稳定可融合深度图，增强自动驾驶环境理解能力[21] 训练策略 - 采用师生范式统一不同训练数据，包括真实世界深度相机数据、3D重建数据和合成数据[14] - 使用伪标注策略，通过合成数据训练单目深度模型为真实世界数据生成高质量伪深度图[14] - 建立新视觉几何基准，涵盖相机姿态估计、任意视图几何和视觉渲染等10项任务[14]