VGGT模型

搜索文档
机器人感知大升级!轻量化注入几何先验,成功率提升31%
量子位· 2025-09-28 11:54
当前基于显式深度输入的增强方案虽有效,但依赖额外传感器或深度估计网络,存在部署难度、精度噪声等问题。 Evo-0团队 投稿 量子位 | 公众号 QbitAI 在机器人学习领域,如何让AI真正"看懂"三维世界一直是个难题。 VLA模型通常建立在预训练视觉语言模型(VLM)之上,仅基于2D图像-文本数据训练,缺乏真实世界操作所需的3D空间理解能力。 为此, 上海交通大学和剑桥大学提出一种增强视觉语言动作(VLA)模型空间理解能力的轻量化方法Evo-0, 通过隐式注入3D几何先验 , 无需显式深度输入或额外传感器。 该方法利用视觉几何基础模型VGGT, 从多视角RGB图像中提取3D结构信息 ,并融合到原有视觉语言模型中,实现空间感知能力的显著提 升。 在rlbench仿真实验中,Evo-0在5个需要精细操作的任务上,平均成功率超过基线pi0 15%,超过openvla-oft 31%。 Evo-0:实现2D–3D表征的融合 Evo-0提出将VGGT作为空间编码器,引入VGGT训练过程中针对3D结构任务提取的t3^D token。这些token包含深度上下文、跨视图空间对 应关系等几何信息。 模型引入一个cross- ...