Workflow
ExploreVLM框架
icon
搜索文档
ExploreVLM:基于视觉-语言模型的闭环机器人探索任务规划框架
具身智能之心· 2025-08-20 00:03
研究背景与核心问题 - 具身智能发展推动机器人成为日常助手 要求机器人具备高层指令解读 动态环境感知和实时计划调整能力 [3] - 视觉-语言模型(VLMs)因融合视觉理解与语言推理能力 成为机器人任务规划的重要方向 [3] - 现有VLMs方法存在三方面局限:交互式探索能力不足 感知精度有限 计划适应性差 [6] 核心框架设计 - ExploreVLM采用"感知-规划-执行-验证"闭环设计解决现有问题 [5] - 框架流程包括:场景感知模块提取目标中心空间关系图 双阶段规划器生成探索和完成阶段子目标 执行验证器生成反馈 规划器动态调整计划 [6] 关键模块解析 - 目标中心空间关系图构建结构化场景表示:节点标注物体语义属性 有向边表示物体间空间关系 [8] - 构建流程分两步:GroundedSAM2分割图像并标注物体类别 VLM推理空间关系将2D图像转化为语言可理解的3D空间结构 [9] - 双阶段自反思规划器分离"未知信息探索"与"目标达成":探索阶段生成探索子目标及动作 完成阶段生成达成最终目标的动作序列 [10][12] - 自反思机制通过链-of-thought推理修正计划 解决LLM幻觉问题:验证目标有效性 检查动作逻辑一致性 处理障碍物 [10][12] - 执行验证器采用逐步验证机制:判断动作是否成功 验证子目标是否达成 若失败返回具体原因触发重新规划 [14][17] 实验验证 - 实验在真实机器人平台(UR5机械臂+Robotiq夹爪+Intel RealSense相机)进行 设计5个递增复杂度任务 [15] - 平均成功率:ExploreVLM达94% 远超ReplanVLM的22%和VILA的30% [16][19] - 各任务成功率:Task1 100% Task2 100% Task3 100% Task4 90% Task5 80% [19] - 消融实验显示移除核心模块后性能大幅下降:无空间关系图成功率降至30% 无双阶段规划器降至10% 无执行验证器降至0% [19] 优势分析 - 空间关系图提升场景理解精度 准确识别障碍物和物体 [21] - 双阶段规划解决探索性任务困境 通过探索准确定位目标 [21] - 自反思修正逻辑错误 避免不合理动作序列 [21] - 逐步验证增强抗噪声能力 及时检测失败并重试 [21] 与传统方法对比 - 传统TAMP方法缺乏自然语言与视觉整合 适应性有限 [22] - VILA直接用GPT-4V生成计划 但缺乏结构化感知 探索与执行脱节 [22] - ReplanVLM依赖阶段末反馈 误差易累积 [22] - RoboExp需依赖先验物体知识 探索步骤冗余 [22]