人类感知的视觉语言导航(HA-VLN)

搜索文档
HA-VLN:具备动态多人互动的视觉语言导航基准与排行榜
具身智能之心· 2025-08-29 16:03
研究背景与动机 - 传统视觉语言导航系统忽视人类动态和部分可观测性 而现实导航场景涉及动态人类活动如人群移动和个人空间需求[6] - 提出人类感知视觉语言导航任务要求智能体在遵循语言指令同时应对动态人类活动 预测人类运动 尊重个人空间并调整路径避免碰撞[6] - 人类感知视觉语言导航任务将离散和连续导航范式统一 在明确社会意识约束下进行 包括标准化任务定义 升级数据集和模拟器 基准测试 真实世界测试和公开排行榜[8] 任务定义与框架 - 人类感知视觉语言导航任务状态空间包括智能体3D位置 朝向和以自我为中心视图 离散环境中智能体在预定义视点间跳跃 连续环境中智能体看到90°视场RGB+D馈送并进行小增量移动[9] - 动作空间在两种环境中均为动作分布 动态人类模型根据HAPS 2.0中3D运动轨迹自然移动 个人空间要求智能体避免过于接近人类 在离散环境中距离小于3米 在连续环境中距离小于半径之和[9] - 以人为中心指令描述人及其活动 需要文本提示与实时视觉输入一致性 详细人类位置和运动通过多阶段管道标注 涉及广泛标记和验证确保真实性[9] 数据集与模拟器 - HAPS 2.0数据集包含486个运动序列 涵盖室内外活动 通过两轮人工验证对齐文本描述和运动数据 消除HAPS 1.0中超过一半不准确配对 最终得到172个精确对齐运动[12][14] - HAPS 2.0在运动准确性 环境兼容性 失败案例数量和标注工作量等方面优于HAPS 1.0 包含26个不同区域 覆盖90个建筑场景 涵盖486个人类活动[14] - HA-VLN模拟器基于HAPS 2.0数据集 提供两个互补模块HA-VLN-CE用于连续导航和HA-VLN-DE用于离散导航 共享统一API 提供一致人类状态查询 动态场景更新和碰撞检查[12] 标注与验证 - 标注流程采用粗粒度到细粒度方法 设置九个RGB相机位置和角度提供全面多视角视图 用于检测人类与周围物体间潜在碰撞或对齐问题[16][19] - 细粒度标注协议通过六步程序微调人类位置和朝向 包括初始视图 多相机观察 垂直碰撞检查 水平平移 侧相机审查和最终输出[19] - 使用大模型如ChatGPT-4和LLaMA-3-8B-Instruct提出合理多人场景 对语言模型产生候选互动进行四轮手动细化和验证 确保上下文对齐[22] 基准测试与结果 - HA-R2R数据集扩展R2R-CE 增加16,844条精心策划指令 强调社交细微差别如对话 走廊交叉和近碰撞事件 测试分区包含3,408条指令 分布在18栋保留建筑中 强调多人路线[28][36] - 在HA-VLN任务中整合模型时出现显著增益 例如BEVBert成功率在已见分割中从0.19提高到0.27 在未见分割中从0.15提高到0.21[40] - 在连续导航基准测试中 HA-VLN-CMA-Base在已见验证集上获得7.63导航误差 0.77总碰撞率和0.05碰撞率 成功率63.09[39] 真实世界验证 - 在四种室内空间办公室 客厅 走廊 大厅中部署训练有素智能体 每个空间有2-4名自由移动志愿者 实验在适度拥挤条件下进行 面临狭窄走廊或人群突然聚集挑战[36][47] - 使用Unitree Go2-EDU四足机器人 配备Intel Realsense D435i RGB-D相机 MID360 3D LiDAR和IMU 用于机载感知和控制[36] - 机器人经常暂停或让路避开迎面而来行人 在没有旁观者情况下顺利导航 但在狭窄走廊或人群突然聚集时出现碰撞[51] 性能评估 - HA-VLN-VL智能体基于Recurrent VLNBERT 采用模仿学习方法 在复杂设置中通过更强多模态基础提升性能[31] - HA-VLN-CMA智能体基于交叉模态注意力 在每个时间步融合文本嵌入和视觉特征 通过多头注意力机制产生联合表示 然后通过MLP映射到动作概率[33] - 在真实世界测试中 HA-VLN-VL智能体在办公室环境中获得0.42无碰撞成功率和0.11碰撞率 在客厅环境中获得0.43无碰撞成功率和0.17碰撞率[48] 挑战与未来方向 - 社交导航需要无碰撞运动并尊重个人空间 人类对齐指令可能涉及短暂活动或互动 自适应重规划要求应对人类不可预测阻塞或解阻通道[9] - 部分可观测性和突然群体形成仍然是挑战 特别是在狭窄通道或拥挤路口 需要进一步改进碰撞预测和反应控制[51] - 未来工作可集中在提高智能体对人员行为预测能力 在更复杂动态环境中测试 以及探索技术在其他领域如服务机器人或自动驾驶汽车中应用[51]