Workflow
点embedding网络(PEN)
icon
搜索文档
天大&清华最新!GeoVLA:增强VLA模型的3D特征提取能力,鲁棒提升明显(SOTA)
具身智能之心· 2025-08-15 00:05
核心观点 - 提出GeoVLA框架 通过整合3D几何信息显著提升视觉-语言-动作模型的空间感知和操作能力 [3][9] - 在模拟和真实世界环境中实现卓越性能 包括LIBERO基准测试97.7%平均成功率和ManiSkill2基准测试77%成功率 [3][24][27] - 采用端到端架构设计 包含点嵌入网络和3D增强动作专家 有效融合多模态特征 [9][12][15] 领域背景 - 当前VLA模型主要依赖2D视觉输入 缺乏对3D几何信息的利用 限制空间感知能力 [3][7] - 现有3D整合方法存在局限性:LLaVA3D等方案破坏视觉编码器与语言模型对齐 需大规模微调数据集 PointVLA等方案冻结动作专家阻碍模态适应 [8] - 机器人操作需同时处理智能交互和精确运动控制 VLA模型通过视觉-语言基础结合动作生成设计实现指令跟随 [7] 方法设计 - 点嵌入网络采用双路径架构:几何特征路径使用CNN提取patch级token 位置编码路径通过旋转位置编码增强空间信息 [17] - 空间锚设计聚焦末端执行器区域 提升特征提取效率并明确建模空间关系 [18] - 3D增强动作专家采用扩散transformer与混合专家架构 通过静态路由策略平衡多模态特征处理 [19][20] - 端到端训练框架同步处理视觉语言特征和点云几何特征 输出连续动作序列 [12][13] 性能表现 - LIBERO基准测试中全面领先:空间任务98.4% 物体任务99.0% 目标任务96.6% 长视野任务96.6% 90任务97.7% [24][27] - ManiSkill2基准测试表现优异:PickCube任务90% StackCube任务90% PickSingleYCB任务75% PickClutterYCB任务45% [24][27] - 真实世界任务平均成功率86.3% 较CogACT提升10个百分点 在3D感知任务中达77.5%成功率 [31][36] 技术优势 - 几何感知能力突出:点云输入提供精确深度线索 增强空间理解和对视角变化的鲁棒性 [3][38] - 泛化能力强:在篮子高度变化、玩偶尺寸缩放、相机视角偏移等未见场景中保持稳定性能 [35][38] - 架构创新有效:点嵌入网络较MLP和PointNet编码器提升2-2.5个百分点 旋转位置编码较1D位置编码提升2.3个百分点 [29][30]