FastVGGT - 财报，业绩电话会，研报，新闻

FastVGGT

搜索文档

厦门大学曹刘娟团队FastVGGT：四倍速度提升，打破VGGT推理瓶颈并降低累积误差！

具身智能之心· 2025-09-10 06:18

核心观点 - 提出FastVGGT方法通过分析VGGT模型推理效率瓶颈并引入token merging技术在保持3D重建精度的同时实现最高4倍加速显著提升大规模3D视觉任务实用性[5][26] 主要贡献 - 系统分析VGGT推理速度瓶颈首次将token merging引入前向3D模型[5] - 基于工程优化使VGGT在单GPU(80G VRAM)处理能力从300张提升至1000张输入图像[5] - 在1000张图像推理任务中实现4倍加速同时降低累积误差[5] 瓶颈分析 - 推理效率问题: Global Attention计算量随帧数增加占据主要时间消耗时间复杂度保持O(n²d)量级[6] - 累积误差问题: 全局注意力机制在跨帧关联时放大细微错误导致预测结果漂移和重建稳定性下降[6] 冗余观察 - 全局注意力存在大量冗余同一Block下不同token注意力图几乎重合出现token collapse现象[7] - 全局退化反映场景一致性但带来计算冗余为优化提供空间[7] 方法设计 - Token划分采用三种策略: 参考系约束(第一帧作为destination token) 关键token保留(特异性最高token) 基于区域采样(确保采样均匀性)[11] - Token Merging通过计算余弦相似度将source token合并到最相似destination token[12][13] - Token Unmerging机制恢复输入token数量保证密集3D重建输出完整性[15] 实验结果点云重建性能 - ScanNet-50数据集: 1000帧输入下推理时间从724.6秒降至180.7秒加速4倍 Chamfer Distance从0.471改善至0.425[18][19] - 7Scenes数据集: Stride 3设置下推理时间从76.7秒降至28.0秒 Normal Consistency从0.611提升至0.617[21] - NRGBD数据集: Stride 3设置下推理时间从136.1秒降至53.1秒 Normal Consistency从0.727提升至0.730[21] 相机位姿估计 - 1000帧输入时ATE从0.196降至0.164 ARE从4.636降至3.860[23][24] - RPE-rot从0.997降至0.667 RPE-trans从0.039降至0.029[24] - 有效缓解长序列推理过程中的误差累积问题[23] 结论 - FastVGGT作为training-free加速方法在ScanNet-50 7Scenes NRGBD等数据集验证实用性[26] - 在保持VGGT精确度的同时实现最高4倍推理加速适用于大规模3D视觉系统[26]

token merging

Token Unmerging

Artificial Intelligence

Artificial Intelligence

FastVGGT

VGGT