视觉-语言导航(VLN)
搜索文档
深大团队让机器人听懂指令精准导航,成功率可达72.5%,推理效率提升40%
36氪· 2025-12-10 07:00
行业技术突破 - 深圳大学李坚强教授团队联合北京理工莫斯科大学等机构,提出了视觉-语言导航新框架UNeMo,其核心是构建了“多模态世界模型+分层预测反馈导航器”的双向协同架构,旨在解决现有方法中视觉状态推理与导航决策脱节的问题 [1][6] - 该框架通过多模态世界模型预测未来视觉状态,并结合分层预测反馈导航器进行决策,形成了“推理-决策”相互赋能的动态闭环优化,使智能体能在复杂环境中持续迭代并做出更聪明的决策 [3][12] 技术优势与性能 - 在资源消耗方面实现大幅优化:UNeMo采用FlanT5-1.5B模型,参数规模仅为对比方法NavGPT2所用FlanT5-5B模型的30%,训练时GPU显存占用从27GB降至12GB,减少56%,推理速度从每步1.1秒提升至0.7秒,效率提升40% [14][15] - 在核心性能上实现超越:在R2R数据集的未见环境测试中,UNeMo的导航成功率(SR)达到72.5%,较NavGPT2的71%提升1.5个百分点,路径效率(SPL)从60%提升至61.3% [15][16] - 在长路径导航中表现尤为突出:在路径长度≥7的长轨迹任务中,导航成功率(SR)大幅提升5.6%(从64.2%至69.8%),提升幅度是短路径的4.7倍,有效缓解了长距离导航的累积误差 [17] 通用性与可拓展性 - 框架展现出强可拓展性:团队将UNeMo迁移至不同类型的导航基线(如DUET)与目标导向导航数据集REVERIE进行验证,实验结果显示其在未见场景的导航成功率(SR)与远程目标定位成功率(RGS)指标上均有提升 [18][19][20] - 这表明UNeMo的协同训练架构并非局限于特定类型的导航系统,能够灵活适配不同任务场景,验证了其作为通用导航架构的潜力 [20] 学术认可与影响 - 该研究成果已入选顶级人工智能会议AAAI 2026,为视觉-语言导航领域提供了高效可行的新方案,有望推动服务机器人等实际应用场景的落地发展 [3][21]
深大团队让机器人听懂指令精准导航!成功率可达72.5%,推理效率提升40%|AAAI2026
新浪财经· 2025-12-10 06:52
技术突破与核心架构 - 深圳大学李坚强教授团队联合北京理工莫斯科大学等机构提出视觉-语言导航新框架UNeMo 其核心突破在于构建了“多模态世界模型+分层预测反馈导航器”的双向协同架构 将视觉状态推理与导航决策深度绑定 从根本上解决现有方法的脱节问题 [1][5][20] - UNeMo通过多模态世界模型与分层预测反馈机制 让导航智能体不仅能感知当前环境 还能预测未来视觉状态 并据此做出更聪明的决策 [3][18] - 多模态世界模型基于条件变分自编码器构建 核心是精准预判未来视觉状态 它通过跨注意力机制融合多模态信息 且无需额外标注数据 就能通过导航决策结果反向反馈 持续优化预测精度 形成自适应进化循环 [5][21] - 分层预测反馈导航器采用两阶段分层机制 先基于当前特征生成粗粒度候选动作锁定方向 再融合预测的未来视觉状态优化出细粒度动作修正偏差 让智能体在复杂场景中稳健导航 [8][24] - 该框架构建了“推理-决策”相互赋能的闭环优化 MWM的视觉预判提升导航决策精准度 导航的实际执行结果则实时反馈给MWM优化其预测准确性 这种双向促进让智能体在导航中持续迭代 [10][26] 性能优势与实验验证 - 在VLN领域核心数据集R2R的实验中 UNeMo在轻量化配置与高性能决策的平衡上实现关键突破 其采用的FlanT5-1.5B模型参数规模仅为主流方法NavGPT2所用FlanT5-5B的30% [11][27] - 在资源消耗上实现大幅优化 训练时GPU显存占用从27GB降至12GB 减少56% 推理速度从每步1.1秒提升至0.7秒 效率提升40% [11][27] - 在模型未见过的测试环境中 其导航成功率(SR)达到72.5% 较NavGPT2的71%提升1.5个百分点 路径效率(SPL)从60%提升至61.3% [12][28] - 在复杂的长路径导航场景中 UNeMo优势尤为突出 短路径(长度<7)的导航成功率仅微增1.2%(从71.1%至72.3%) 而长路径(长度≥7)的SR大幅提升5.6%(从64.2%至69.8%) 提升幅度是短路径的4.7倍 证明其能有效缓解长距离导航中的累积误差 [13][14][29][30] - 在跨场景可拓展性验证中 团队将UNeMo迁移至不同类型的导航基线(DUET)与目标导向导航数据集REVERIE 实验结果显示其在unseen场景的导航成功率与远程目标定位成功率指标上均有提升 验证了其强可拓展性 [15][31][32] 行业影响与落地前景 - UNeMo针对传统VLN方法推理与决策脱节、资源消耗高的问题 以协同架构破解痛点 其轻量化配置具备高性能、长路径导航稳健、跨场景适配性强的优势 [16][33] - 该研究为视觉-语言导航提供了高效可行的方案 有助于推动服务机器人等实际场景的落地应用 [16][33] - 该论文已入选人工智能顶级会议AAAI 2026 显示了其学术价值与行业关注度 [3][18]
最新SOTA!JanusVLN:双重隐式记忆解耦语义与空间,显著降低了计算与推理开销
具身智能之心· 2025-10-07 03:03
文章核心观点 - JanusVLN是一个创新的视觉-语言导航框架,其核心是双重隐式记忆范式,通过解耦语义与空间几何信息来解决现有方法的瓶颈[2] - 该框架仅需单目RGB视频流输入,无需昂贵传感器,即可实现强大的三维空间推理能力,并在权威基准测试中取得领先的性能[2][8] - 该方法标志着视觉-语言导航研究从“2D语义主导”迈向“3D空间与语义协同”的新阶段,为下一代具身智能体的开发指明了方向[19] 当前视觉-语言导航领域的技术瓶颈 - 现有方法依赖的显式记忆机制导致空间信息失真与丢失,难以精确编码连续的空间关系[3][5] - 存储历史图像帧的方法造成计算与推理效率低下,计算量随导航步数线性增长[5] - 无论是文本还是图像形式的显式记忆,其规模都会随导航轨迹延长而持续增长,引发“记忆爆炸”问题[5] JanusVLN的核心技术创新 - 提出双重隐式记忆,将记忆系统解耦为负责理解“是什么”的语义记忆和感知“在哪里”的空间几何记忆,均以神经网络键值缓存作为紧凑载体[7][8] - 集成预训练的3D视觉几何基础模型作为空间几何编码器,仅凭普通RGB视频流即可推断场景三维结构[8] - 采用混合增量更新策略,通过维护初始窗口和滑动窗口实现恒定大小的记忆,避免重复计算,大幅提升推理效率[8][11] 框架构成与工作原理 - 采用双编码器架构,2D视觉语义编码器提取高级语义特征,3D空间几何编码器提取蕴含三维结构的几何特征[11] - 将语义和空间几何编码器的注意力键值对缓存作为隐式记忆的载体,形成紧凑高效的双重记忆[11] - 缓存更新策略结合滑动窗口与初始窗口,滑动窗口确保对近期环境的敏锐感知,初始窗口作为“注意力接收器”提供全局上下文[11] 实验性能与结果 - 在VLN-CE R2R Val-Unseen数据集上,JanusVLN取得了导航误差4.78,成功率65.2,成功路径加权指标56.8的优异性能[13] - 在RxR Val-Unseen数据集上,JanusVLN的成功率达到56.2,成功路径加权指标47.5,标准化动态时间规整指标62.1[14] - 与依赖全景视图、深度图等多种昂贵输入的先进方法相比,JanusVLN仅凭单目RGB输入就在成功率指标上实现10.5-35.5个点的巨大提升[21] - 相较于同样使用RGB输入但采用显式记忆的先进方法,JanusVLN在成功率指标上取得3.6-10.8个点的提升,且使用更少的辅助训练数据[21]
AnywhereVLA:在消费级硬件上实时运行VLA
具身智能之心· 2025-09-29 02:08
核心观点 - AnywhereVLA提出了一种模块化架构,旨在融合经典导航的鲁棒性与视觉语言动作模型的语义理解能力,以解决在未知大型室内环境中执行语言驱动拾取-放置任务的技术瓶颈 [3] - 该方案设计可在消费级硬件上实时运行,针对家庭服务、零售自动化、仓储物流等开放、非结构化场景 [3] 相关工作回顾:现有方案的优势与不足 - 通用视觉语言动作模型缺乏空间感知能力,难以应对大型环境 [4] - 视觉语言导航方案需预先知晓目标物体的环境位置,在动态或未探索场景中不实用 [4] - 经典导航框架缺乏语言理解与语义推理能力,无法执行语言驱动的目标导向任务 [4] - 轻量化视觉语言动作模型泛化能力仅局限于操作领域,缺乏环境探索能力 [5] - 结合视觉语言导航与SLAM的方案在185平方米环境中需10-15分钟完成探索,效率低下 [5] AnywhereVLA架构:四大核心模块与工作流 - 工作流逻辑为语言指令解析,同步指导视觉语言动作操作与主动探索,构建3D语义地图,通过前沿探索定位目标,由趋近模块导航至预抓取位姿,最后视觉语言动作执行操作 [7] - 带置信度的3D语义地图模块核心功能是融合多传感器数据,构建含目标类别、几何信息与置信度的语义点云地图 [7] - 主动环境探索模块基于“前沿探索”策略,结合语言指令中的目标类别定位目标物体 [11] - 趋近模块核心是计算机械臂可操作的安全基座位姿,确保后续视觉语言动作操作能稳定执行 [12] - 视觉语言动作操作模块基于微调后的SmolVLA模型,将视觉上下文与语言子目标转化为机械臂的抓取/放置动作 [12] VLA模型微调与硬件平台 - 模型微调使用NVIDIA RTX 4090,数据集为50个SO-101机械臂的拾取-放置片段 [15] - 训练参数包括批量大小16,余弦衰减学习率调度器,AdamW优化器 [15] - HermesBot移动操作平台专为AnywhereVLA设计,平衡传感与计算能力 [16] - 计算硬件分配中,SLAM模块处理频率10赫兹,处理时间25毫秒;语义地图模块处理频率2赫兹,处理时间45毫秒;视觉语言动作模块处理频率5赫兹,处理时间20毫秒 [16] 实验结果:性能与有效性验证 - 在未知多房间实验室中执行50次拾取-放置任务,整体成功率为46% [17][22] - 微调后的SmolVLA操作模块成功率达85%,未微调时整体成功率仅10% [22] - 各模块单独成功率分别为:SLAM 100%,主动环境探索 75%,目标检测 90%,导航 80%,视觉语言动作操作 85% [22] - 探索半径为5米时,平均任务完成时间小于133秒;探索半径为10米时,完成时间小于10分钟 [23]
VLN-PE:一个具备物理真实性的VLN平台,同时支持人形、四足和轮式机器人(ICCV'25)
具身智能之心· 2025-07-21 08:42
视觉-语言导航平台VLN-PE的核心创新 - 推出首个支持人形、四足和轮式机器人的物理真实VLN平台VLN-PE,基于GRUTopia构建,可无缝集成MP3D之外的新场景[3][10] - 平台采用基于RL的控制器API,支持Unitree H1人形机器人、Aliengo四足机器人和Jetbot轮式机器人的物理仿真[13] - 引入90个MP3D场景并手动修复地面间隙,新增10个GRScenes合成家庭场景和3D高斯溅射扫描场景以增强环境多样性[14] 跨具身导航的关键发现 - 现有VLN-CE模型迁移到物理环境时成功率下降34%,暴露伪运动训练与物理部署的差距[15] - 模型性能因机器人类型差异显著,人形机器人表现最佳而四足机器人最差(相机高度0.5米时几乎失效)[36][37] - 联合训练三种机器人数据的模型实现最佳性能,验证跨具身训练的"一劳永逸"潜力[37][39] 多模态与光照条件影响 - 仅依赖RGB的NaVid模型在低光照下成功率下降12.47%,而RGB+深度模型的CMA和RDP表现更稳定[38] - 相机光源(CL)条件下模型性能普遍低于圆盘光(DL),反光问题导致导航误差增加[38] - 深度信息融合使CMA模型在DL300光照条件下保持85%的基础性能,显著优于纯RGB模型[38] 模型性能对比 - 70亿参数的NaVid模型零样本迁移表现最佳,但存在70%任务片段中过度旋转的问题[29][30] - 扩散模型RDP在3DGS-Lab-VLN数据集上达到30.63%成功率,较NaVid的5.81%提升5倍[31] - 基于地图的VLMaps方法在未见验证集取得20%成功率,证明非端到端方案的可行性[27][24] 数据收集与训练策略 - 使用物理控制器收集的训练数据使模型跌倒率降低8.36%,卡住率减少2.01%[33][34] - 在VLN-PE域内数据微调的Seq2Seq模型性能超越Habitat增强训练的模型,显示仿真过拟合风险[29] - 3DGS场景微调的600万参数小型模型超越NaVid,验证多样化训练分布的价值[30]