机器人感知大升级,轻量化注入几何先验,成功率提升31%
技术突破 - 提出Evo-0轻量化方法 通过隐式注入3D几何先验增强视觉语言动作模型的空间理解能力 无需显式深度输入或额外传感器 [2] - 利用视觉几何基础模型VGGT从多视角RGB图像提取3D结构信息 包含深度上下文和跨视图空间对应关系等几何信息 [2][3] - 引入cross-attention融合模块 将ViT提取的2D视觉token作为query VGGT输出的3D token作为key/value 实现2D-3D表征融合 [3] 性能表现 - 在rlbench仿真实验中 Evo-0在5个需要精细操作的任务上平均成功率超过基线pi0 15% 超过openvla-oft 31% [2] - 真机实验中在5个空间感知要求高的任务上平均成功率提升28.88% 其中插孔任务达到66.67% 透明物抓取任务达到65.00% [8][10][11] - 仅用15k步训练的Evo-0已超过20k步训练的π0 显示更高训练效率 [6] 鲁棒性优势 - 在5类干扰条件下均表现相对鲁棒 包括未见干扰物体 背景颜色变化 目标位置位移 目标高度变化和相机角度变化 [12] - 在存在未见干扰物体时 拾取正确率100% 整体正确率70% 显著高于基线的60%和20% [12][15] - 相机视角向上偏移10度时正确率60% 向下偏移10度时40% 均优于基线的40%和30% [15] 应用价值 - 方法以插件形式增强VLA模型空间建模能力 训练高效且部署灵活 为通用机器人策略提供新路径 [16] - 绕过深度估计误差与传感器需求 降低部署难度和精度噪声问题 [1][16] - 在密集抓取 置物架放置及透明物体操作等对空间精度容忍度极低的任务中展现精准操控能力 [8][10]