Workflow
视觉语言导航(VLN)
icon
搜索文档
HA-VLN:具备动态多人互动的视觉语言导航基准与排行榜
具身智能之心· 2025-08-29 16:03
研究背景与动机 - 传统视觉语言导航系统忽视人类动态和部分可观测性 而现实导航场景涉及动态人类活动如人群移动和个人空间需求[6] - 提出人类感知视觉语言导航任务要求智能体在遵循语言指令同时应对动态人类活动 预测人类运动 尊重个人空间并调整路径避免碰撞[6] - 人类感知视觉语言导航任务将离散和连续导航范式统一 在明确社会意识约束下进行 包括标准化任务定义 升级数据集和模拟器 基准测试 真实世界测试和公开排行榜[8] 任务定义与框架 - 人类感知视觉语言导航任务状态空间包括智能体3D位置 朝向和以自我为中心视图 离散环境中智能体在预定义视点间跳跃 连续环境中智能体看到90°视场RGB+D馈送并进行小增量移动[9] - 动作空间在两种环境中均为动作分布 动态人类模型根据HAPS 2.0中3D运动轨迹自然移动 个人空间要求智能体避免过于接近人类 在离散环境中距离小于3米 在连续环境中距离小于半径之和[9] - 以人为中心指令描述人及其活动 需要文本提示与实时视觉输入一致性 详细人类位置和运动通过多阶段管道标注 涉及广泛标记和验证确保真实性[9] 数据集与模拟器 - HAPS 2.0数据集包含486个运动序列 涵盖室内外活动 通过两轮人工验证对齐文本描述和运动数据 消除HAPS 1.0中超过一半不准确配对 最终得到172个精确对齐运动[12][14] - HAPS 2.0在运动准确性 环境兼容性 失败案例数量和标注工作量等方面优于HAPS 1.0 包含26个不同区域 覆盖90个建筑场景 涵盖486个人类活动[14] - HA-VLN模拟器基于HAPS 2.0数据集 提供两个互补模块HA-VLN-CE用于连续导航和HA-VLN-DE用于离散导航 共享统一API 提供一致人类状态查询 动态场景更新和碰撞检查[12] 标注与验证 - 标注流程采用粗粒度到细粒度方法 设置九个RGB相机位置和角度提供全面多视角视图 用于检测人类与周围物体间潜在碰撞或对齐问题[16][19] - 细粒度标注协议通过六步程序微调人类位置和朝向 包括初始视图 多相机观察 垂直碰撞检查 水平平移 侧相机审查和最终输出[19] - 使用大模型如ChatGPT-4和LLaMA-3-8B-Instruct提出合理多人场景 对语言模型产生候选互动进行四轮手动细化和验证 确保上下文对齐[22] 基准测试与结果 - HA-R2R数据集扩展R2R-CE 增加16,844条精心策划指令 强调社交细微差别如对话 走廊交叉和近碰撞事件 测试分区包含3,408条指令 分布在18栋保留建筑中 强调多人路线[28][36] - 在HA-VLN任务中整合模型时出现显著增益 例如BEVBert成功率在已见分割中从0.19提高到0.27 在未见分割中从0.15提高到0.21[40] - 在连续导航基准测试中 HA-VLN-CMA-Base在已见验证集上获得7.63导航误差 0.77总碰撞率和0.05碰撞率 成功率63.09[39] 真实世界验证 - 在四种室内空间办公室 客厅 走廊 大厅中部署训练有素智能体 每个空间有2-4名自由移动志愿者 实验在适度拥挤条件下进行 面临狭窄走廊或人群突然聚集挑战[36][47] - 使用Unitree Go2-EDU四足机器人 配备Intel Realsense D435i RGB-D相机 MID360 3D LiDAR和IMU 用于机载感知和控制[36] - 机器人经常暂停或让路避开迎面而来行人 在没有旁观者情况下顺利导航 但在狭窄走廊或人群突然聚集时出现碰撞[51] 性能评估 - HA-VLN-VL智能体基于Recurrent VLNBERT 采用模仿学习方法 在复杂设置中通过更强多模态基础提升性能[31] - HA-VLN-CMA智能体基于交叉模态注意力 在每个时间步融合文本嵌入和视觉特征 通过多头注意力机制产生联合表示 然后通过MLP映射到动作概率[33] - 在真实世界测试中 HA-VLN-VL智能体在办公室环境中获得0.42无碰撞成功率和0.11碰撞率 在客厅环境中获得0.43无碰撞成功率和0.17碰撞率[48] 挑战与未来方向 - 社交导航需要无碰撞运动并尊重个人空间 人类对齐指令可能涉及短暂活动或互动 自适应重规划要求应对人类不可预测阻塞或解阻通道[9] - 部分可观测性和突然群体形成仍然是挑战 特别是在狭窄通道或拥挤路口 需要进一步改进碰撞预测和反应控制[51] - 未来工作可集中在提高智能体对人员行为预测能力 在更复杂动态环境中测试 以及探索技术在其他领域如服务机器人或自动驾驶汽车中应用[51]
具身智能论文速递 | 强化学习、VLA、VLN、世界模型等~
具身智能之心· 2025-07-08 12:54
强化学习提升VLA泛化能力研究 - 清华大学等机构通过PPO算法微调视觉-语言-动作模型(VLA),OOD场景任务成功率提升42.6%,语义理解任务成功率从61.5%提升至75.0%,动态干扰场景成功率从28.6%跃升至74.5% [2] - 构建了评估VLA微调方法泛化能力的多维度基准,验证PPO优于GRPO和DPO算法,并提出共享actor-critic骨干网络、模型预热等高效微调方案 [4] - 强化学习在VLA的语义理解和实体执行泛化能力上超越监督微调(SFT),视觉鲁棒性与SFT相当 [4] NavMorph自进化世界模型技术 - 中科院突破NavMorph技术,在R2R-CE基准未见环境中成功率(SR)达47.9%,路径长度加权成功率(SPL)提升至33.2% [13] - 模型通过World-aware Navigator推断环境动态潜在表示,结合Foresight Action Planner实现前瞻决策,Contextual Evolution Memory机制支持动态环境行动规划 [15] - 实验显示NavMorph在VLN-CE基准全面领先:单目相机场景下Test Unseen的SR达45.7%,全景相机场景SR提升至60%,SPL达52% [18] 行业技术进展 - 视觉语言导航领域主流方法对比显示,NavMorph在Val Unseen场景SR较基准最优模型(ETPNav*)提升7个百分点,SPL提高4个百分点 [18] - 具身智能领域形成产学研社区,近200家公司及研究机构参与技术交流,涵盖招聘、学习资源及前沿技术更新 [23]
机器人视觉语言导航进入R1时代!港大联合上海AI Lab提出全新具身智能框架
量子位· 2025-06-25 00:33
技术突破 - VLN-R1实现了将自然语言指令直接转化为第一人称视角下的连续导航动作,无需依赖离散地图,能在复杂环境中灵活感知、决策与行动,实现类人级别的具身智能导航[1] - 该技术打破了"视觉输入→文本描述→离散决策"的传统链条,直接让LVLM以第一人称视频流为"眼睛",输出连续导航动作(前进、左转、右转、停止)[5] - 在VLN-CE基准测试中,仅用20亿参数模型就超越了70亿参数模型的SFT结果,在长距离导航中仅用1万RxR样本进行RFT就超过了使用完整RxR数据训练的模型[2] 技术创新 - 采用两阶段训练框架:先通过监督微调学习正确动作序列的文本表达,再通过强化微调引入奖励机制优化决策[7] - 提出分组对比优化(GRPO)方法,通过比较多个动作方案的相对优劣来学习最优路径,不需要提前设定固定奖励规则[7] - 引入时间衰减奖励(TDR)机制,对近期动作赋予更高权重,让模型优先确保眼前动作的精准执行[8][9] 数据集与训练 - 构建了全新的VLN-Ego数据集,包含63万R2R和120万RxR训练样本,完全基于第一人称视角,摒弃全局地图等"作弊"信息[12] - 提出长短时记忆采样策略,平衡近期信息与长期记忆,确保Agent在复杂环境中既不迷失方向又能对突发情况做出反应[14] 性能表现 - 2B模型通过RFT优化后性能直逼7B模型,为资源受限场景(如家用机器人)的落地提供了可能[15] - 展现出极强的数据效率,在跨域迁移任务中仅用少量样本就超越了完整数据集训练的效果[2] 应用前景 - 该框架正在促进AI从"数字智能"向"具身认知"跨越,可应用于工厂物流机器人和家庭服务助手等领域[16] - 研究证明LVLM完全有能力成为"感知-决策-行动"闭环的控制中枢,为具身智能发展提供了新思路[16]