人类感知的视觉语言导航（HA-VLN）

搜索文档

具身智能之心· 2025-08-29 16:03

研究背景与动机 - 传统视觉语言导航系统忽视人类动态和部分可观测性而现实导航场景涉及动态人类活动如人群移动和个人空间需求[6] - 提出人类感知视觉语言导航任务要求智能体在遵循语言指令同时应对动态人类活动预测人类运动尊重个人空间并调整路径避免碰撞[6] - 人类感知视觉语言导航任务将离散和连续导航范式统一在明确社会意识约束下进行包括标准化任务定义升级数据集和模拟器基准测试真实世界测试和公开排行榜[8] 任务定义与框架 - 人类感知视觉语言导航任务状态空间包括智能体3D位置朝向和以自我为中心视图离散环境中智能体在预定义视点间跳跃连续环境中智能体看到90°视场RGB+D馈送并进行小增量移动[9] - 动作空间在两种环境中均为动作分布动态人类模型根据HAPS 2.0中3D运动轨迹自然移动个人空间要求智能体避免过于接近人类在离散环境中距离小于3米在连续环境中距离小于半径之和[9] - 以人为中心指令描述人及其活动需要文本提示与实时视觉输入一致性详细人类位置和运动通过多阶段管道标注涉及广泛标记和验证确保真实性[9] 数据集与模拟器 - HAPS 2.0数据集包含486个运动序列涵盖室内外活动通过两轮人工验证对齐文本描述和运动数据消除HAPS 1.0中超过一半不准确配对最终得到172个精确对齐运动[12][14] - HAPS 2.0在运动准确性环境兼容性失败案例数量和标注工作量等方面优于HAPS 1.0 包含26个不同区域覆盖90个建筑场景涵盖486个人类活动[14] - HA-VLN模拟器基于HAPS 2.0数据集提供两个互补模块HA-VLN-CE用于连续导航和HA-VLN-DE用于离散导航共享统一API 提供一致人类状态查询动态场景更新和碰撞检查[12] 标注与验证 - 标注流程采用粗粒度到细粒度方法设置九个RGB相机位置和角度提供全面多视角视图用于检测人类与周围物体间潜在碰撞或对齐问题[16][19] - 细粒度标注协议通过六步程序微调人类位置和朝向包括初始视图多相机观察垂直碰撞检查水平平移侧相机审查和最终输出[19] - 使用大模型如ChatGPT-4和LLaMA-3-8B-Instruct提出合理多人场景对语言模型产生候选互动进行四轮手动细化和验证确保上下文对齐[22] 基准测试与结果 - HA-R2R数据集扩展R2R-CE 增加16,844条精心策划指令强调社交细微差别如对话走廊交叉和近碰撞事件测试分区包含3,408条指令分布在18栋保留建筑中强调多人路线[28][36] - 在HA-VLN任务中整合模型时出现显著增益例如BEVBert成功率在已见分割中从0.19提高到0.27 在未见分割中从0.15提高到0.21[40] - 在连续导航基准测试中 HA-VLN-CMA-Base在已见验证集上获得7.63导航误差 0.77总碰撞率和0.05碰撞率成功率63.09[39] 真实世界验证 - 在四种室内空间办公室客厅走廊大厅中部署训练有素智能体每个空间有2-4名自由移动志愿者实验在适度拥挤条件下进行面临狭窄走廊或人群突然聚集挑战[36][47] - 使用Unitree Go2-EDU四足机器人配备Intel Realsense D435i RGB-D相机 MID360 3D LiDAR和IMU 用于机载感知和控制[36] - 机器人经常暂停或让路避开迎面而来行人在没有旁观者情况下顺利导航但在狭窄走廊或人群突然聚集时出现碰撞[51] 性能评估 - HA-VLN-VL智能体基于Recurrent VLNBERT 采用模仿学习方法在复杂设置中通过更强多模态基础提升性能[31] - HA-VLN-CMA智能体基于交叉模态注意力在每个时间步融合文本嵌入和视觉特征通过多头注意力机制产生联合表示然后通过MLP映射到动作概率[33] - 在真实世界测试中 HA-VLN-VL智能体在办公室环境中获得0.42无碰撞成功率和0.11碰撞率在客厅环境中获得0.43无碰撞成功率和0.17碰撞率[48] 挑战与未来方向 - 社交导航需要无碰撞运动并尊重个人空间人类对齐指令可能涉及短暂活动或互动自适应重规划要求应对人类不可预测阻塞或解阻通道[9] - 部分可观测性和突然群体形成仍然是挑战特别是在狭窄通道或拥挤路口需要进一步改进碰撞预测和反应控制[51] - 未来工作可集中在提高智能体对人员行为预测能力在更复杂动态环境中测试以及探索技术在其他领域如服务机器人或自动驾驶汽车中应用[51]

人类感知的视觉语言导航（HA-VLN）