Workflow
让具身智能体拥有「空间感」!清华、北航联合提出类脑空间认知框架,导航、推理、做早餐样样精通
机器之心·2025-09-04 03:27

技术突破 - 清华大学与北京航空航天大学团队开发BSC-Nav框架 实现智能体在真实环境中执行"制作早餐"等移动操作任务[2][4] - BSC-Nav是首个受生物大脑空间认知机制启发的统一框架 赋予智能体卓越的通用导航能力和高阶空间感知与交互能力[7] - 框架通过模仿生物大脑构建和维护空间记忆的原理 为智能体植入结构化空间记忆系统 解决当前AI缺乏长期环境记忆的瓶颈问题[7][8][11] 技术架构 - BSC-Nav核心包含三大协同记忆模块:地标记忆模块、认知地图模块和工作记忆模块[13][17][18] - 地标记忆模块采用开放词汇检测器识别环境显著物体 记录类别标签和空间位置 形成稀疏高效的地标记忆[17] - 认知地图模块通过DINO-V2实时编码观测图像特征 采用"意外驱动"策略更新认知地图 避免冗余存储[17] - 工作记忆模块实现人脑视觉-空间工作记忆功能 采用"联想增强"检索策略处理模糊指令 实现精准定位[18] 性能表现 - 在Habitat物理仿真环境中进行大规模实验 覆盖62个场景和8195个导航片段[20] - 在物体导航任务中 HM3D数据集上成功率高达78.5% 比此前SOTA方法UniGoal高出24.0%[24] - 在文本实例导航任务中将成功率提升近一倍 展现强大多模态理解与定位能力[24] - 在长指令导航基准VLN-CE R2R中 零样本导航效率SPL达53.1% 远超所有对手[26] 实际应用 - 与松灵机器人团队合作打造移动机器人平台 在200平方米双层真实室内环境测试[33] - 在75次随机起点测试中实现80%以上导航成功率 任务成功定义为停止位置距离目标小于1米[35] - 能够无缝衔接复杂移动操作任务 包括清理桌面、搬运饼干盒和完整"制作早餐"任务[38] - 在主动具身问答基准表现显著超越所有基线方法 能准确解析空间推理问题并给出精准回答[28][29] 技术意义 - 证明具身智能进化不完全依赖算力和参数堆砌 生物演化提供的智能范式足够强大和高效[41][42] - 实现从"被动反应"到"主动认知"的关键跃迁 使机器真正理解空间 记忆成为关键因素[11][42] - 团队计划将类脑记忆框架扩展到更动态环境和更复杂认知任务中[42]