技术突破与核心创新 - 提出IGGT,一个创新的端到端大型统一Transformer,首次将3D空间重建与实例级上下文理解融为一体,解决了传统方法将两者割裂处理导致的错误累积和泛化能力差的问题 [1] - 首创“实例接地的场景理解”范式,使模型不与任何特定视觉语言模型绑定,而是生成实例掩码作为桥梁,实现与任意VLMs和LMMs的即插即用式集成 [3] - 该统一表示是首个能同时支持空间跟踪、开放词汇分割和场景问答的统一模型,极大地扩展了下游能力 [4] 模型架构与关键技术 - IGGT架构由三部分构成:使用预训练DINOv2提取图像块级Token的统一Transformer、进行intra-view self-attention和global-view cross-attention的24个注意力模块、以及并行的几何头与实例头双解码头 [11][13] - 设计跨模态融合块,通过窗口滑动交叉注意力将几何头的空间结构特征嵌入到实例表示中,显著增强实例特征的空间感知能力 [18] - 采用多视角对比损失Lmvc,在特征空间中拉近不同视角但属同一3D实例的像素特征,同时推开不同实例的特征,使模型从2D输入学到3D一致实例特征 [14] 数据集构建 - 构建全新大规模数据集InsScene-15K,包含15,000个场景、2亿张图像,以及通过新颖数据管线标注的高质量、3D一致的实例级掩码 [2] - 数据集整合三种来源数据:合成数据直接使用模拟生成的完美准确掩码;真实世界视频数据通过定制化SAM2视频密集预测管线确保时间一致性;真实世界RGBD数据通过掩码优化流程提升2D掩码质量并保持3D ID一致性 [8][9][10] 性能表现与应用 - 在实例3D跟踪任务上,IGGT的跟踪IOU和成功率分别达到69.41%和98.66%,是唯一能成功跟踪物体消失又重新出现的模型 [16] - 支持三大应用:实例空间跟踪可在多视角图像中密集跟踪分割特定对象实例;开放词汇语义分割可利用实例掩码作为提示接入任意VLM实现类别分配;QA场景定位可与LMM交互执行以对象为中心的复杂问答任务 [19] - 在2D/3D开放词汇分割任务上,得益于实例接地范式特性,可无缝接入最新视觉语言模型提升查询性能 [22]
首个实例理解3D重建模型,NTU&阶越提出基于实例解耦的3D重建模型,助理场景理解
36氪·2025-10-31 08:28