Workflow
导航大模型
icon
搜索文档
多任务、全场景、跨本体通用移动:银河通用发布环视导航基座大模型
具身智能之心· 2025-11-06 00:03
核心观点 - 公司联合多所高校发布全球首个跨本体全域环视导航基座大模型NavFoM,实现导航技术从碎片化任务模型到统一智能基座的跨越 [3][8][9] - 该模型通过统一范式、多任务支持、跨本体适配等创新,使机器人具备自主感知与决策能力,推动具身智能规模化商业落地 [9][11][29] - 基于NavFoM衍生的应用模型矩阵已在复杂场景中验证实效,标志公司完成从单一功能创新到智能基础设施建设的升级 [27][28][30] 技术架构创新 - 提出TVI Tokens机制,为视觉数据添加时间与视角标记,使模型理解空间连续变化并兼容多类视觉输入方式 [14] - 采用BATS策略动态采样关键帧,在7B参数规模下实现毫秒级响应,兼顾算力限制与决策精度 [17] - 构建1,200万条跨任务数据集(800万条导航数据+400万条问答数据),训练量达以往工作的两倍,覆盖多机器人形态与场景 [21][23] 性能与泛化能力 - 在VLN-CE、HM3D-OVON、NavSim等国际基准中达到或刷新SOTA水平,展现零样本导航与跨任务泛化能力 [25] - 实测支持四足机器人长程自主跟随、轮式机器人室内外混合导航、无人机复杂地形规划等任务,无需微调即可直接部署 [25] 应用模型衍生 - TrackVLA++实现30分钟以上稳定长程跟随,适应室内外多地形复杂路况 [27] - MM-Nav突破360°厘米级纯视觉避障,解决玻璃、细线等传统方案难以处理的极限场景 [28] - UrbanVLA与第三方地图软件打通,实现街道、天桥等室外环境自主路径规划,复杂度超越汽车自动驾驶 [30]