阿里AstraNav-World:端到端世界模型,联合推理视觉状态和动作
具身智能之心·2025-12-30 01:11

文章核心观点 - 提出了一种名为AstraNav-World的统一生成式世界模型框架,旨在解决具身智能导航在开放动态环境中“预见未来”与“规划未来”能力割裂的核心瓶颈 [3][7] - 该框架通过一个视觉语言模型(VLM)中央规划器,同步驱动视频生成器和动作策略头,实现未来视觉状态预测与任务导向动作序列生成的双向约束与协同优化,从而增强物理一致性、因果关系和长视野规划的可靠性 [3][5][7] - 在多个导航基准测试中,该模型在无需真实世界微调的情况下,实现了性能的显著提升和成功的零样本迁移,验证了其有效性和泛化能力 [7][20][25] 核心问题与研究动机 - 现有具身导航方法多采用“先想象未来视觉状态,再规划动作”的松散耦合范式,导致物理一致性缺失、因果关系模糊,且误差会随时间累积,破坏长视野规划的可靠性 [3] - 实现稳健真实世界导航需要同时推进两大能力:基于动作生成可信未来视觉状态的“预见未来”能力,以及生成能约束视觉结果贴近真实世界的任务导向动作序列的“规划未来”能力 [3] - 现有方案因这两大能力割裂而性能受限,因此需要一个统一框架实现双向约束与协同优化 [3] 模型架构与核心组件 VLM中央规划器 - 作为模型的高层推理核心,输入自然语言指令和历史视觉观测序列,输出统一的2048维视觉-语言嵌入 [5] - 该嵌入包含目标导向语义特征和空间上下文特征,为视频生成和动作规划提供统一的高层指导 [5][8] 视频生成器 - 基于Wan-2.2-TI2V-5B扩散模型进行导航场景优化,模型参数量为5B(50亿)[6] - 核心优化包括:用VLM规划器嵌入替代传统文本编码器;通过3D-RoPE重排处理多视角输入以保留时空关系;采用Flow Matching方法,损失函数仅聚焦于未来帧预测 [6][9] - 训练损失函数为 \mathcal{L}_{V G}=\mathbb{E}_{t,z^{\mathrm{future}},C}\left[\left|v_{\theta}(z_{t},t,C)-(\epsilon-z^{\mathrm{future}})\right|\right|^{2}\right],其中 zfuturez^{\mathrm{future}} 是真实未来帧的潜在编码,CC 为VLM的上下文嵌入 [9][10] 动作策略头 - 提供两种实现方案:基于查询Transformer的确定性Action Former策略和概率性扩散策略 [11][12][14] - Action Former策略损失函数为加权组合:LPH=A1Lpos+A2Langle+A3Larrive\mathcal{L}_{PH}=\mathcal{A}_{1}\mathcal{L}_{\text{pos}}+\mathcal{A}_{2}\mathcal{L}_{\text{angle}}+\mathcal{A}_{3}\mathcal{L}_{\text{arrive}},其中权重 A1=A2=A3=1.0\mathcal{A}_{1}=\mathcal{A}_{2}=\mathcal{A}_{3}=1.0 [12][13] - 扩散策略训练损失函数为 LPH=Et,Afuture,ϵ,C[vϕ,θ(At,t,C)(ϵAfuture)2]\mathcal{L}_{PH}=\mathbb{E}_{t,A_{\text{future}},\epsilon,C}\left[\|v_{\phi,\theta}(A_{t},t,C)-(\epsilon-A_{\text{future}})\|^{2}\right] [14] 多模态融合与双向约束 - 核心创新是多模态融合交叉注意力(MMFCA)模块,连接扩散策略与视频生成器的最后8个DiT块,实现双向信息流动 [18] - 通过“动作到视觉注意力”和“视觉到动作注意力”,确保动作基于可信视觉未来,且视觉生成与动作因果一致 [18] 训练策略与效率优化 - 采用两阶段训练:第一阶段组件单独预训练,第二阶段联合微调所有组件,总损失 Ltotal=LVG+λLPH\mathcal{L}_{total} = \mathcal{L}_{VG} + \lambda \mathcal{L}_{PH},其中 λ=1.0\lambda=1.0 [16][19] - 提出稀疏远见调度(SFS),无需每一步都生成未来视觉和动作,仅在固定间隔(如每10步)执行联合生成,利用导航场景中大量简单重复动作的特性降低计算开销 [16][19] - SFS实现显著推理加速:间隔步k=10时,推理时间从243.8秒降至36.5秒,实现6.7倍加速,同时成功率保持稳定 [19][27] 实验验证与性能表现 指令导航(R2R-CE/RxR-CE) - Action Former策略在R2R-CE上取得73.1%的成功率(SR)和67.2%的路径长度加权成功率(SPL),导航误差(NE)为3.93;在RxR-CE上SR为70.4%,SPL为59.6%,NE为3.93 [20] - Diffusion策略在R2R-CE上进一步提升,SR达73.9%,SPL达67.9%,NE降至3.86;在RxR-CE上SR达72.9%,SPL达61.5%,NE为3.82 [20] - 性能显著优于此前最佳方法(如CorrectNav在R2R-CE上SR为65.1%,在RxR-CE上SR为69.3%)[20] 开放词汇目标导航(HM3D-OVON) - Action Former策略成功率达45.1%,SPL达28.3%;Diffusion策略成功率达45.7%,SPL达28.7% [21] - 较此前最佳方法(MTU3D SR为40.8%)提升4.3至4.9个百分点 [21] 消融实验与关键发现 - 视频生成器是关键组件,移除后R2R、RxR、OVON的成功率均出现明显下降 [27] - 双向耦合至关重要,单独移除MMFCA或视频生成器分支,会同时降低视觉预测质量和动作规划可靠性 [27] - 视觉-动作一致性高:生成的未来视觉帧与轨迹渲染结果高度吻合,定量指标上,R2R的5步预测PSNR达13.69,FVD为670;RxR的5步预测PSNR达14.50,FVD为497 [23][25] 零样本迁移与泛化能力 - 模型无需任何真实世界数据微调,即可在物理机器人上成功完成自然语言指令导航任务 [25] - 能提前预判门廊、转角等复杂场景,显著优于需要域适配的传统方法,验证了模型对核心导航原理的掌握而非对模拟数据的过拟合 [25]