VGGT
搜索文档
挖掘注意力中的运动线索:无需训练,解锁4D场景重建能力
量子位· 2025-12-17 09:07
文章核心观点 - 香港科技大学(广州)与地平线研究团队提出了一种名为VGGT4D的无需训练框架,旨在通过挖掘预训练的3D基础模型(VGGT)内部隐藏的运动线索,使其在不增加训练成本的前提下,获得处理动态4D场景的能力 [1][2][6] 技术背景与挑战 - 以VGGT、DUSt3R为代表的3D基础模型在静态场景重建中表现出色,但在处理包含移动物体的动态4D场景时性能显著下降,动态物体会干扰背景几何建模并导致相机位姿漂移 [4] - 现有解决方案面临两大挑战:一是依赖繁重的测试时优化或大规模4D数据微调,导致计算或训练成本高;二是需要引入光流、深度估计等额外模块,增加了系统复杂性 [5] 核心发现与原理 - 研究发现,VGGT虽然是基于静态假设训练的,但其内部不同网络层对动态区域的响应模式不同,表明模型已隐式编码了丰富的动态线索 [7][13] - 标准注意力图混合了纹理、语义和运动信息,信噪比低,导致基于极几何假设的方法在VGGT上失效 [13] - VGGT4D的核心是提出一套无需训练的注意力特征挖掘与掩膜精修机制,通过深入特征流形内部,利用Gram矩阵和梯度流实现高精度的动静分离 [14] 关键技术方法 - **特征挖掘**:引入自相似性Gram矩阵替代标准注意力图,通过在同构潜在分布内计算相似度,使运动引起的方差成为主导信号,并在时间窗口内聚合不同层级的统计矩以构建动态显著性场 [17] - **掩膜精修**:引入投影梯度感知精修,利用3D点几何投影残差关于坐标的梯度所包含的强边界信息,结合光度残差项,实现对动态掩膜的亚像素级锐化 [18][19] - **推理策略**:采用分布内早期掩膜策略,仅在浅层抑制动态Token的Key向量,既切断了动态信息对深层几何推理的影响,又保证了深层Transformer Block在预训练特征流形上运行,确保了位姿估计的鲁棒性 [19] 性能评估与结果 - **动态物体分割**:在DAVIS-2016和DAVIS-2017数据集上,VGGT4D取得了最优性能。例如,在DAVIS-2016上,其JM指标达62.12,JR指标达76.80,显著优于其他方法。定性结果显示其生成的掩码更准确、边界更清晰 [21][22] - **相机位姿估计**:在长序列Point Odyssey基准测试中,VGGT4D在所有指标上均取得最佳结果,且能高效运行(许多其他方法因内存不足无法运行)。其ATE指标为0.019,优于VGGT基线的0.022 [25][26] - **4D点云重建**:在DyCheck数据集上,VGGT4D在所有重建指标上均取得最佳性能。与VGGT基线相比,中位准确度误差从0.009降低到0.004,平均距离从0.150降低到0.123 [28] - **基线对比**:原始VGGT本身已是强大基线,优于MonST3R、DAS3R等专门方法,而VGGT4D在所有数据集上持续改进了这一基线。例如在VKITTI数据集上,VGGT4D的ATE为0.164,远低于MonST3R的2.272 [23] 意义与潜力 - VGGT4D提出了一种无需训练的新范式,成功将3D基础模型能力扩展至4D动态场景,证明了通过挖掘模型内部Gram相似度统计特性可有效解耦动态与静态信息 [30] - 该工作为低成本的4D重建提供了新思路,并展示了基础模型在零样本迁移任务中的潜力 [30]
VGGT4D:无需训练,挖掘3D基础模型潜力,实现4D动态场景重建
机器之心· 2025-12-17 02:05
研究背景与问题 - 以VGGT、DUSt3R为代表的3D基础模型在静态场景重建中表现出色,但在处理包含移动物体(如行人、车辆)的动态4D场景时,性能显著下降,动态物体的运动会干扰背景几何建模并导致严重的相机位姿漂移 [6] - 现有解决方案面临两类主要挑战:一是依赖繁重的测试时优化或需要在大规模4D数据集上进行微调,计算或训练成本高;二是通常需要引入光流、深度估计或语义分割等额外模块,增加了系统复杂性 [9] 核心洞察与原理 - 研究团队通过可视化分析VGGT的注意力机制,发现其不同网络层对动态区域表现出截然不同的响应模式:浅层网络倾向于捕捉语义上显著的动态物体,而深层网络则逐渐抑制几何不一致的区域 [8][9] - 这一发现表明,VGGT虽然是基于静态假设训练的,但其内部实际上已经隐式编码了丰富的动态线索 [12] - 然而,直接利用标准的注意力图效果不理想,因为它混合了纹理、语义和运动信息,导致信噪比低 [12] 方法论:VGGT4D框架 - VGGT4D是一种无需训练的框架,其核心贡献在于提出了一套无需训练的注意力特征挖掘与掩膜精修机制,深入特征流形内部,利用Gram矩阵和梯度流实现高精度的动静分离 [14] - 为解决标准注意力图中Query和Key向量来自异构投影头导致的特征分布间隙问题,VGGT4D引入了自相似性Gram矩阵来替代,通过在同构潜在分布内计算相似度,使运动引起的方差成为主导信号 [16][17] - 为解决注意力图分辨率不足导致的边界模糊问题,VGGT4D引入了投影梯度感知精修,利用几何投影残差关于3D坐标的梯度所包含的强边界信息,对动态掩膜进行亚像素级锐化 [19] - 在推理阶段,VGGT4D采用了分布内早期掩膜策略,仅在浅层抑制动态Token的Key向量,既切断了动态信息对深层几何推理的影响,又保证了深层Transformer Block在其预训练的特征流形上运行,从而保证了位姿估计的鲁棒性 [21] 实验验证:动态物体分割 - 在动态物体分割任务上,VGGT4D在DAVIS-2016和DAVIS-2017数据集上均达到了最优性能,即使没有经过任何4D特定的训练,仅基于预训练的VGGT模型即可取得优异结果 [24] - 具体数据:在DAVIS-2016数据集上,VGGT4D的JM指标为62.12,JR指标为76.80,FM指标为56.04,FR指标为67.49;在DAVIS-2017数据集上,JM为56.45,JR为65.62,FM为51.09,FR为56.85 [25] - 定性分析显示,VGGT4D生成的掩码比基线方法(如Easi3R、DAS3R、MonST3R)更加准确,边界更加清晰,验证了从VGGT的Gram相似度统计信息中可提取丰富运动线索的假设 [25] 实验验证:相机位姿估计 - 原始VGGT本身已是一个强大的基线,其相机位姿估计性能优于MonST3R、DAS3R等许多专门的4D重建方法,表明其预训练隐式地使其对动态物体具有一定的鲁棒性 [27] - VGGT4D在所有数据集上均持续改进了VGGT基线,例如在VKITTI数据集上,VGGT4D的ATE(绝对轨迹误差)为0.164,而MonST3R高达2.272 [27][28] - 在极具挑战性的长序列Point Odyssey基准测试中,VGGT4D在所有指标上均取得了最佳结果,同时保持了高度效率,而许多其他4D方法由于内存不足无法在500帧序列上运行 [28] - 具体数据:在Point Odyssey上,VGGT4D的ATE为0.019,RTE为0.009,RRE为0.290,均优于VGGT基线的0.022、0.015和0.344 [29] 实验验证:4D点云重建 - 在DyCheck数据集上的评估显示,VGGT4D在所有重建指标(准确度、完整度和距离)上均取得了最佳性能 [30] - 与VGGT基线相比,VGGT4D将中位准确度误差从0.009降低到0.004,平均距离从0.150降低到0.123,证明了该方法能实质性提升几何重建质量 [30][31] - 具体数据:VGGT4D的位姿估计ATE为0.010,准确度均值为0.022、中位数为0.004,完整度均值为0.051、中位数为0.012,距离均值为0.123、中位数为0.050 [31] 研究意义与结论 - VGGT4D提出了一种无需训练的新范式,成功将3D基础模型的能力扩展至4D动态场景 [33] - 该工作证明了通过合理挖掘模型内部的Gram相似度统计特性,可以有效解耦动态与静态信息,这不仅为低成本的4D重建提供了新思路,也展示了基础模型在零样本迁移任务中的潜力 [33]
复旦最新一篇DriveVGGT:面向自动驾驶,高效实现多相机4D重建
自动驾驶之心· 2025-12-17 00:03
点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近30个 方向 学习 路线 >>自动驾驶前沿信息获取 → 自动驾驶之心知识星球 论文作者 | Xiaosong Jia等 编辑 | 自动驾驶之心 自动驾驶中的4D场景重建是实现环境感知与运动规划的关键环节,然而传统视觉几何模型在多相机、低重叠的自动驾驶场景中往往表现不佳。 来自上海交大、复旦等机构的研究者提出 DriveVGGT,一种专为自动驾驶设计的视觉几何Transformer,通过显式引入相机相对位姿先验,显著提升了多相机系统的几 何预测一致性与推理效率。 更多自动驾驶的行业信息、技术进展,欢迎加入自动驾驶之心知识星球获取! 背景介绍 4D重建是一项从视觉传感器预测几何信息的计算机视觉任务。与其他传感器相比,基于相机的重建因其低成本而在各个领域,尤其是在自动驾驶和机器人学中,得到 了广泛的研究和应用。通常,重建方法有两种类型。第一种是基于迭代的方法,例如。这些方法需要选择特定的场景或物体,并通过迭代重建来获得优化结果。然 而,由于泛化能力不足,当场景或物体发生变化或修改时,基于迭代的方法需要重新训练模型。第二种是前向方法。这些方法 ...
顶级四校联手打造OmniVGGT:全模态视觉几何Transformer!
自动驾驶之心· 2025-11-17 00:05
核心观点 - 提出OmniVGGT框架,旨在解决现有3D基础模型无法灵活利用多种辅助几何信息(如深度、相机参数)的问题 [5][6] - 该框架通过两个核心创新(GeoAdapter和随机多模态融合策略)实现在训练和推理时能利用任意数量的辅助模态,且不影响纯RGB输入的性能 [7][9][10] - 实验表明,该模型在单目/多视图深度估计、相机位姿估计、3D重建及机器人操作任务上均达到顶尖水平,展示了强大的性能与实用性 [7][29][48] 技术背景与问题定义 - 当前主流3D基础模型(如VGGT)主要依赖RGB图像,无法有效利用实际应用中广泛存在的辅助信息(如RGB-D数据、激光雷达点云、相机参数) [5] - 现有方法要么只能使用一种辅助信息,要么最多处理两种,缺乏对不同应用场景的灵活适配能力,造成“信息浪费” [5][9] 核心技术:OmniVGGT框架 - **基础架构**:基于VGGT改进,使用DINO骨干网络提取空间令牌,并通过交替注意力机制处理多视图信息 [13][14] - **GeoAdapter(几何适配器)**:包含相机适配器和深度适配器,采用零初始化卷积等技术将不同几何信息轻量且稳定地注入基础模型,计算开销极小 [10][15][16] - **随机多模态融合策略**:在训练时随机采样模态子集,使模型能适应测试时任意数量和组合的模态输入,增强鲁棒性 [10][22][23] - **端到端处理**:输入图像集及任意数量的辅助信息,通过网络直接输出深度图、相机位姿和3D点云图 [12] 实验性能评估 - **单视图深度估计**:在Sintel数据集上,仅使用RGB输入时,其绝对相对误差(Abs Rel)为0.558,优于基线VGGT的0.722;当使用100%深度信息时,Abs Rel显著降低至0.106 [30][36] - **多视图深度估计**:在ETH3D数据集上,结合深度信息后,相对误差(rel)仅为0.5,准确率(δ<1.25)达到98.7% [36][40] - **相机位姿估计**:在CO3Dv2数据集上,结合相机参数输入时,AUC@30°达到93.4%,远超对比方法Pow3R的82.2%,且推理速度仅需0.2秒,快30倍以上 [39][42] - **3D重建**:在7-Scenes数据集上,结合相机与深度信息后,重建精度(Acc)提升至0.036,比纯RGB输入(0.104)提升约64.4% [43][47] - **机器人操作任务**:集成到视觉-语言-动作模型后,在CALVIN数据集上,使用RGB-D输入的任务平均连续完成数(Avg Len)达4.08,优于基线 [48][51] 架构有效性验证 - 消融实验证明,完整的OmniVGGT设计(零卷积处理相机信息、直接相加处理深度信息)性能最优,替代方案(如直接替换令牌或单层适配器)均导致性能下降 [49][52] - 该设计确保了在引入辅助信息时不破坏原有特征空间,纯RGB输入性能仍优于基线 [30][52] 行业应用与前景 - 该技术解决了3D视觉模型在多样化真实场景(如VR/AR、自动驾驶、机器人)中的输入适配性问题,实现了“全能辅助” [5][53] - 模型高效且实用,计算开销小,易于集成到现有系统(如VLA模型)以提升下游任务(如机器人操作)性能 [7][53] - 展现了在多模态融合领域的潜力,为未来扩展到更复杂动态场景奠定了基础 [54]
港科广&清华联合提出Spatial Forcing:隐式空间对齐,超越主流2D/3D VLA模型性能
具身智能之心· 2025-10-18 16:03
文章核心观点 - 提出一种名为Spatial Forcing (SF)的新方法 该方法无需依赖显式的3D传感器输入 而是通过隐式空间对齐策略 使视觉-语言-动作模型在训练过程中自发形成空间感知能力 从而显著提升机器人在真实物理世界中的操作性能 [2][10][16] 技术背景与现有范式局限 - 当前主流的视觉-语言-动作模型大多仅依赖2D视觉数据 缺乏对真实3D空间的深层理解 难以应对复杂的物理世界操控任务 [2] - 现有3D VLA模型尝试通过深度相机或激光雷达引入显式3D信息 但面临传感器数据质量低 不同机器人传感器类型和安装方式差异大 以及无法利用现有纯2D大规模机器人数据集等限制 [2][8] - 另一种方法是使用深度估计网络从2D图像中估计3D信息 但效果受限于离线深度估计器的性能 导致训练结果非最优 [9] Spatial Forcing方法论 - 方法核心是通过将VLA骨干网络的中间层视觉特征 对齐到外部3D基础模型生成的强大3D几何表征 使模型隐式获得空间理解能力 [10][16] - 具体流程包括:使用预训练的3D基础模型提取像素级空间表征 取出VLA模型的视觉token并通过MLP投影 计算与3D表征的余弦相似度作为空间对齐损失 并与动作生成损失共同优化模型 [16] - 实验发现 在VLA骨干网络中较深但非最深的注意力层施加空间对齐监督 能最有效地提升模型动作表现 [16] - 在推理阶段 该方法不会带来额外的结构或计算开销 模型运行方式与普通VLA完全一致 具备高实用性与可扩展性 [16] 实验验证与性能提升 - 深度探测实验表明 在纯2D图像数据上预训练的传统VLA模型 其视觉特征无法生成有意义的深度结构 缺乏准确的空间感知 [11][13] - 在LIBERO仿真环境中 该方法超越了主流2D和3D VLA模型 平均任务成功率达到了98.5% 优于GeoVLA的97.7%和3D-CAVLA的98.1% [18] - 在真实机器人环境的双臂和单臂操作任务中 该方法显著提高了任务成功率 [14][18] - 该方法展现出卓越的训练效率和数据利用效率 训练效率提升高达3.8倍 数据利用效率提升高达5.9倍 [14] 技术优势总结 - 该方法的核心优势在于让机器人无需看3D也能懂3D 解决了显式3D方法对特定传感器的依赖问题 并能够充分利用现有的大规模2D机器人数据集 [2][10]
机器人感知大升级,轻量化注入几何先验,成功率提升31%
36氪· 2025-09-28 12:09
技术突破 - 提出Evo-0轻量化方法 通过隐式注入3D几何先验增强视觉语言动作模型的空间理解能力 无需显式深度输入或额外传感器 [2] - 利用视觉几何基础模型VGGT从多视角RGB图像提取3D结构信息 包含深度上下文和跨视图空间对应关系等几何信息 [2][3] - 引入cross-attention融合模块 将ViT提取的2D视觉token作为query VGGT输出的3D token作为key/value 实现2D-3D表征融合 [3] 性能表现 - 在rlbench仿真实验中 Evo-0在5个需要精细操作的任务上平均成功率超过基线pi0 15% 超过openvla-oft 31% [2] - 真机实验中在5个空间感知要求高的任务上平均成功率提升28.88% 其中插孔任务达到66.67% 透明物抓取任务达到65.00% [8][10][11] - 仅用15k步训练的Evo-0已超过20k步训练的π0 显示更高训练效率 [6] 鲁棒性优势 - 在5类干扰条件下均表现相对鲁棒 包括未见干扰物体 背景颜色变化 目标位置位移 目标高度变化和相机角度变化 [12] - 在存在未见干扰物体时 拾取正确率100% 整体正确率70% 显著高于基线的60%和20% [12][15] - 相机视角向上偏移10度时正确率60% 向下偏移10度时40% 均优于基线的40%和30% [15] 应用价值 - 方法以插件形式增强VLA模型空间建模能力 训练高效且部署灵活 为通用机器人策略提供新路径 [16] - 绕过深度估计误差与传感器需求 降低部署难度和精度噪声问题 [1][16] - 在密集抓取 置物架放置及透明物体操作等对空间精度容忍度极低的任务中展现精准操控能力 [8][10]
厦门大学曹刘娟团队FastVGGT:四倍速度提升,打破VGGT推理瓶颈并降低累积误差!
具身智能之心· 2025-09-10 06:18
核心观点 - 提出FastVGGT方法 通过分析VGGT模型推理效率瓶颈并引入token merging技术 在保持3D重建精度的同时实现最高4倍加速 显著提升大规模3D视觉任务实用性[5][26] 主要贡献 - 系统分析VGGT推理速度瓶颈 首次将token merging引入前向3D模型[5] - 基于工程优化使VGGT在单GPU(80G VRAM)处理能力从300张提升至1000张输入图像[5] - 在1000张图像推理任务中实现4倍加速 同时降低累积误差[5] 瓶颈分析 - 推理效率问题: Global Attention计算量随帧数增加占据主要时间消耗 时间复杂度保持O(n²d)量级[6] - 累积误差问题: 全局注意力机制在跨帧关联时放大细微错误 导致预测结果漂移和重建稳定性下降[6] 冗余观察 - 全局注意力存在大量冗余 同一Block下不同token注意力图几乎重合 出现token collapse现象[7] - 全局退化反映场景一致性 但带来计算冗余 为优化提供空间[7] 方法设计 - Token划分采用三种策略: 参考系约束(第一帧作为destination token) 关键token保留(特异性最高token) 基于区域采样(确保采样均匀性)[11] - Token Merging通过计算余弦相似度将source token合并到最相似destination token[12][13] - Token Unmerging机制恢复输入token数量 保证密集3D重建输出完整性[15] 实验结果 点云重建性能 - ScanNet-50数据集: 1000帧输入下推理时间从724.6秒降至180.7秒 加速4倍 Chamfer Distance从0.471改善至0.425[18][19] - 7Scenes数据集: Stride 3设置下推理时间从76.7秒降至28.0秒 Normal Consistency从0.611提升至0.617[21] - NRGBD数据集: Stride 3设置下推理时间从136.1秒降至53.1秒 Normal Consistency从0.727提升至0.730[21] 相机位姿估计 - 1000帧输入时ATE从0.196降至0.164 ARE从4.636降至3.860[23][24] - RPE-rot从0.997降至0.667 RPE-trans从0.039降至0.029[24] - 有效缓解长序列推理过程中的误差累积问题[23] 结论 - FastVGGT作为training-free加速方法 在ScanNet-50 7Scenes NRGBD等数据集验证实用性[26] - 在保持VGGT精确度的同时实现最高4倍推理加速 适用于大规模3D视觉系统[26]
刚刚,CVPR 2025奖项出炉:牛津&Meta博士生王建元获最佳论文,谢赛宁摘年轻研究者奖
机器之心· 2025-06-13 15:45
CVPR 2025大会概况 - 本届CVPR共收到13008份论文投稿,同比增长13%,最终接收2872篇,接收率22.1% [3] - 大会现场参会学者超过9000人,来自70余个国家和地区 [7] - 图像与视频生成领域论文接收数量最多,基于多视角和单图像的3D领域接收率最高 [8] 最佳论文及荣誉提名 - 最佳论文VGGT由牛津大学和Meta AI联合提出,采用纯前馈Transformer架构实现通用3D视觉模型,推理速度达秒级 [14][17] - 荣誉提名论文MegaSaM来自Google DeepMind等机构,提出深度视觉SLAM框架,在动态场景中实现快速准确的相机姿态估计 [27][30] - 另一篇荣誉提名论文Navigation World Models由LeCun团队提出,采用条件扩散Transformer实现最先进视觉导航性能 [33] 3D视觉技术进展 - 3D Student Splatting and Scooping(SSS)改进了3D高斯泼溅技术,在质量和参数效率上优于现有方法 [37][40] - 论文实验数据显示,SSS方法在Mip-NeRF360数据集上PSNR达29.90,LPIPS为0.145,表现最优 [42] 视觉语言模型创新 - Molmo和PixMo论文提出开源视觉语言模型,72B参数模型在多项基准测试中超越Claude 3.5 Sonnet等商业模型 [46] - 该方法创新性地使用PixMo数据集,无需依赖专有VLM合成数据 [46] 学生论文亮点 - 最佳学生论文提出首个基于物理的多视角动态光传播神经逆渲染系统,实现强间接光条件下的3D重建 [55] - 荣誉提名学生论文创新性地利用扩散时间步构建视觉语言,统一多模态理解和生成 [63][66] 行业重要奖项 - 年轻研究者奖授予Hao Su和谢赛宁,两人论文被引量分别超过12万和7.5万 [68][72][74] - Longuet-Higgins奖授予Inception架构和全卷积网络两篇开创性论文,引用量分别达6.7万和4.9万 [76][79][80][83] - Thomas S. Huang纪念奖授予德克萨斯大学Kristen Grauman教授,表彰其在计算机视觉领域的贡献 [86]