Workflow
NavA³分层框架
icon
搜索文档
NavA3框架:理解任何指令,导航到任何地方找任何目标(清华大学)
具身智能之心· 2025-08-08 00:08
研究背景与动机 - 具身导航(Embodied navigation)现有研究多聚焦于预定义物体导航或指令跟随,与现实中人类复杂、开放场景的需求存在显著差距 [3] - 现有视觉-语言导航(VLN)依赖过于具体的分步指令,物体导航(ObjectNav)仅能处理预定义类别物体,无法应对"我想喝杯咖啡"等需要高级推理和空间感知的指令 [3] - 长视野导航任务要求智能体理解高级人类指令,在真实环境中完成空间感知的物体导航 [4] 核心贡献 - 提出长视野导航任务,要求智能体在复杂室内环境中理解高级人类指令,定位具有复杂空间关系的开放词汇物体 [6] - 设计NavA³分层框架,通过全局策略和局部策略结合实现对多样高级指令的理解、跨区域导航及任意物体定位 [11] - 构建包含100万样本的空间感知物体affordance数据集,用于训练NaviAfford模型 [11] - 实验表明该方法在导航性能上达到SOTA,平均成功率达66.4%,较最佳基线提升41.2个百分点 [7][23] 方法框架:NavA³分层设计 - 采用"全局到局部"的分层策略,融合语义推理与精确空间定位 [9] - 全局策略依赖Reasoning-VLM,将高级人类指令转化为可执行的导航目标 [12] - 局部策略聚焦目标区域内的探索和精确物体定位,核心是NaviAfford模型 [17] - NaviAfford模型基于100万样本训练,能处理物体affordance和空间affordance两类标注 [17][18] 实验验证 - 在5个场景(会议室A、会议室B、茶水间、工作站、阳台)的50个任务上展开实验 [22] - 会议室A成功率72.0%,工作站成功率76.0%,阳台成功率60.0% [23] - 通用VLMs(如GPT-4o、Claude-3.5-Sonnet)在该任务中成功率接近零 [25] - 完整标注使茶水间和工作站的成功率分别提升28.0%和36.0% [26] - GPT-4o作为Reasoning-VLM时平均成功率达68.0%,显著高于开源模型 [27] - NaviAfford的平均affordance准确率达63.2%,较RoboPoint提升13.0% [28][29] 定性分析 - 能准确理解"笔记本左侧的沙发""衣柜内的空位"等空间关系 [34] - 长视野导航中,从"想喝咖啡"到找到咖啡机的推理过程清晰 [34] - 在轮式机器人和四足机器人上均能稳定运行,体现跨载体适应性 [34]