Workflow
Depth Anything 3(DA3)
icon
搜索文档
谢赛宁盛赞字节Seed新研究!单Transformer搞定任意视图3D重建
量子位· 2025-11-18 05:02
技术突破与核心优势 - 采用单一视觉Transformer架构实现从单张图像、多视角照片到视频的任意视图3D重建,极大简化了模型设计[1][2][7] - 模型核心预测目标仅聚焦于深度和光线两个关键参数,通过双任务头输出深度图和光线参数[7][10] - 在全新视觉几何基准测试中,相机定位精度平均提升35.7%,几何重建准确率提高23.6%,单目深度估计超越前代DA2[3] 模型架构与工作流程 - 输入处理环节将多视角图像转化为特征块,相机参数通过编码器或可学习token处理,最终与图像特征融合[9] - 核心Transformer基于预训练的DINO,通过单视角自注意力和跨视角自注意力机制适应不同输入形式[9] - 除了深度和光线预测,模型还能从特征中提取相机姿态信息,确保相机运动轨迹精准[11] 训练策略与性能表现 - 采用师生蒸馏训练策略,利用教师模型从海量数据生成高质量伪标签,降低对精确标注数据的依赖[13][14] - 在整合了5个室内外数据集的基准上,模型能生成密度更高、噪声更低的3D点云,质量明显优于传统方法[14][16][17] - 支持从少量场景图片进行视角补全,生成未拍摄角度的图像,在虚拟漫游和数字孪生领域应用潜力巨大[19] 团队背景与行业影响 - 项目由字节跳动研究科学家康炳易带队,其领导的Depth Anything系列此前已被苹果CoreML库收录[20][25] - 核心研究人员拥有加州伯克利和新加坡国立大学人工智能专业背景,并与谢赛宁等业内专家有过合作[23][24]
3D视觉被过度设计?字节Depth Anything 3来了,谢赛宁点赞
机器之心· 2025-11-15 09:23
文章核心观点 - 字节跳动团队发布Depth Anything 3 (DA3)模型,证明3D视觉研究存在过度设计问题,仅需简单Transformer架构和单一深度光线预测目标即可实现强大空间感知能力[1][2][3] - DA3在姿态估计方面比当前最先进方法(SOTA)提升44%,在几何估计方面提升25%,并在10项任务中均取得新SOTA成绩[7][14] - 该模型采用最小化建模理念,仅使用标准预训练视觉Transformer作为骨干网络,无需专门架构设计[9][12] 技术方法创新 - 采用简单Transformer架构(如原始DINOv2编码器)作为骨干网络,避免复杂架构设计[9][12] - 使用单一深度光线预测目标替代复杂多任务学习[9][12] - 引入输入自适应的跨视图自注意力机制,实现动态重新排列token以支持任意数量视图处理[13] - 提出新型双DPT头,通过处理同一组特征联合输出深度值和光线值[13] 性能表现 - 在相机姿态精度方面比之前SOTA VGGT平均提高35.7%,在几何精度方面提高23.6%[14] - 单目深度估计性能优于Depth Anything V2,同时在细节和鲁棒性方面表现相当[14] - 大规模场景SLAM应用中,仅替换VGGT-Long中的VGGT就能显著降低漂移,效果优于需要48小时以上完成的COLMAP[19] 应用场景 - 视频重建:能从任意数量视图中恢复视觉空间,涵盖单视图到多视图范围[17] - 前馈3D高斯估计:通过冻结主干网络训练DPT头部预测3DGS参数,实现强大新颖视图合成能力[20] - 多摄像头空间感知:从车辆不同视角估计稳定可融合深度图,增强自动驾驶环境理解能力[21] 训练策略 - 采用师生范式统一不同训练数据,包括真实世界深度相机数据、3D重建数据和合成数据[14] - 使用伪标注策略,通过合成数据训练单目深度模型为真实世界数据生成高质量伪深度图[14] - 建立新视觉几何基准,涵盖相机姿态估计、任意视图几何和视觉渲染等10项任务[14]