Workflow
统一框架
icon
搜索文档
阿里AstraNav-World:端到端世界模型,联合推理视觉状态和动作
具身智能之心· 2025-12-30 01:11
点击下方 卡片 ,关注" 具身智能 之心 "公众号 作者丨 Junjun Hu等 编辑丨具身智能之心 本文只做学术分享,如有侵权,联系删文 >> 点击进入→ 具身智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要的。 核心问题与研究动机 具身导航在开放动态环境中面临的关键瓶颈的是:现有方法多采用" 先想象未来视觉状态,再规划动作 "的松散耦合范式,导致物理一致性缺失、因果关系模糊,且 误差会随时间累积,最终破坏长视野规划的可靠性。 要实现稳健的真实世界导航,需要同时推进两大能力:一是"预见未来"——基于动作生成可信的未来视觉状态,体现对物理规律和因果关系的理解;二是"规划未 来"——生成任务导向的动作序列,约束视觉生成结果贴近可到达的真实世界。两者的割裂是现有方案性能受限的核心原因,因此需要一个统一框架实现双向约束与 协同优化。 核心贡献 方法架构详解 VLM中央规划器 $$40394\pm639367$$ 基于Wan-2.2-TI2V-5B扩散模型,针对导航场景做三大核心优化: 1. 条件编码替换 :用VLM规划器替代传统文本编码 ...