具身导航

搜索文档
上海交大具身导航中的感知智能、社会智能和运动智能全面综述
具身智能之心· 2025-09-02 00:03
文章核心观点 - 提出TOFRA框架将具身导航过程分解为状态转移、环境观测、信息融合、奖励策略构建和动作执行五个关键阶段[2] - 首次系统性整合计算机视觉、经典机器人和仿生学三大领域在具身导航方面的研究成果[2] - 指出领域面临的四大核心挑战:自适应时空尺度、联合优化、系统完整性和数据任务泛化性[2] - 详细总结具身导航相关平台工具和评估指标,包括仿真环境和真实硬件平台[2] 研究背景 - 具身智能源于图灵理念,强调通过自我感知和交互获取知识,是通向人工通用智能的重要途径[2] - 具身性体现在以自我为中心的感知方式和分布式计算能力,区别于传统基于全局地图的导航方式[2] - 人工智能进步推动导航从"路径驱动"向"智能驱动"转变,形成具身导航新范式[2] 具身导航核心特征 - 具备三类智能:感知智能通过多模态自我中心感知获取空间认知[3] - 运动智能支持高度自由度的运动技能和适应性物理交互[10] - 社会智能能够理解人类高层语义指令,支持复杂任务执行[10] 现有研究局限 - 计算机视觉方向侧重社会智能但忽视真实感知不确定性[5] - 机器人学方向聚焦感知智能但缺乏高级语义理解[6] - 神经形态方向模仿生物机制但覆盖不足社会智能和运动智能[6] - 现有综述未能统一涵盖感知、社会与运动三个维度[6] TOFRA框架详解 状态转移(Transition) - 利用动力学模型、运动认知和端到端神经网络推算下一状态[14] - 方法包括IMU积分、零速检测和活动识别等技术[21][22][23] - 发展趋势从单节点到高自由度、从几何推算到认知增强[26][29] 环境观测(Observation) - 通过外部传感器(RGB、深度、LiDAR等)感知环境[17] - 包括低层次特征提取、高层次语义认知和多智能体协作感知[27][31][39] - 多智能体协作可扩大感知覆盖范围,克服单传感器局限性[40] 信息融合(Fusion) - 经典贝叶斯方法包括卡尔曼滤波器和基于优化的方法[47][49] - 神经融合方法采用多层网络和Transformer架构[50] - 混合方法结合经典方法可解释性和神经网络学习能力[51] 奖励策略构建(Reward) - 单任务导航包括点目标、图像目标、物体目标和探索任务[54][55] - 多任务导航通过持久记忆机制减少重复探索[56] - 视觉语言导航利用大型语言模型处理自然语言指令[58] 动作执行(Action) - 基础动作技能包括轮式机器人和足式机器人的运动控制[64] - 组合技能涉及顺序技能组合和腿臂协同操作[66] - 形态协作包括轮腿机器人、陆空机器人和空陆水机器人[68] 应用场景分析 具身自动驾驶 - 依赖外部GPS和地图信息,重点学习端到端策略[76] - 输入包括环视摄像头、3D激光雷达和雷达等多模态数据[75] - 输出为车辆控制,系统隐式建模复杂OFRA流程[80] 具身室内导航 - 完全依赖自身传感器,无GPS支持[77] - 使用语义特征或神经辐射场构建世界模型[80] - 需要更强大的感知和决策能力应对复杂环境[80] 复杂地形导航 - 专注于穿越不平坦地形,通常使用四足机器人[78] - 输入包括关节传感器数据和地形深度图[75] - 输出为速度命令或直接关节控制命令[80] 平台与评估体系 仿真平台 - AI2-THOR专注于社交/语言任务和操作[83] - Habitat系列支持建筑尺度导航和语言指令[83] - ThreeDWorld扩展户外场景并提供力反馈[83] 真实硬件平台 - 标准轮式平台包括TurtleBot系列和Clearpath Robotics产品[82] - 复杂地形平台包括Boston Dynamics Spot和ANYbotics ANYmal[82] 评估指标 - 社交维度采用Success Rate和SPL等指标[84] - 感知维度包括Absolute Trajectory Error和Map Accuracy等[85] - 运动维度评估Energy Consumption和Path Deviation等[86] 发展趋势 - 从固定模型转向自适应进化智能[88] - 从专门组件转向集成系统优化[88] - 从工程解决方案转向语言引导行为[88] - 平台向高保真"数字孪生"和可微分环境发展[87] - 评估指标从单一任务扩展到多维度平衡计分卡[87]
最新综述!多模态融合与VLM在具身机器人领域中的方法盘点
具身智能之心· 2025-09-01 04:02
多模态融合与视觉语言模型综述 - 文章系统综述了多模态融合和视觉语言模型在机器人视觉领域的应用,涵盖语义场景理解、3D目标检测、SLAM、具身导航和操作控制等任务,并比较传统方法与新兴大模型方法的优劣 [3][4][11][57] 语义场景理解 - 多模态融合通过整合RGB图像、深度信息、LiDAR点云和语言数据,显著提升复杂环境下物体识别、语义分割和关系建模的准确性与鲁棒性 [9] - 主流融合策略分为早期融合(输入层直接拼接)、中期融合(特征层交互如注意力机制)和后期融合(决策层整合),现代方法趋向统一架构实现隐式协作 [10][12] - 实现路径包括编码器-解码器架构(如DeepLabv3+)、基于注意力的Transformer(如MRFTrans)和图神经网络方法(如MISSIONGNN) [12] 3D目标检测 - 多模态融合结合相机(丰富纹理)和LiDAR(精准几何),解决单一传感器在遮挡、极端天气或低反射物体下的性能缺陷 [16][18][19] - 融合设计核心涉及何时融合(早期/中期/后期)、融合内容(特征图、点云、BEV视图)及融合方法(从非注意力型到基于注意力的跨模态交互) [17] - 技术演进从早期MV3D、AVOD到TransFusion(Transformer建模跨模态依赖)和BEVFusion,并扩展雷达-相机融合(如CenterFusion)和4D雷达提升动态感知 [20][21][22] 具身导航 - 分为目标导向导航(依赖视觉语义与空间先验)、指令跟随导航(结合自然语言理解)和基于对话的导航(主动交互与动态调整),体现从感知到交互的演进 [24][26][27][28] - 代表性系统如InstructNav(零样本规划)和NaVid(视频驱动泛化),强调多模态融合在复杂环境中的适应能力 [27][33] 视觉定位与SLAM - 多模态融合(如DeepVO、D3VO)和自监督学习解决光照变化、遮挡及动态场景中的定位问题,神经隐式表示(如NeRF)压缩场景几何与语义信息 [29][30] - SLAM从传统LiDAR-SLAM(几何精准)和V-SLAM(语义丰富)向多模态融合(如V-LOAM、LIC-Fusion)和神经化转型(如UVIO用Transformer建模时序) [34][35] - 未来方向包括轻量化、自监督与感知决策一体化,提升在动态环境中的语义理解与规划能力 [35][38] 视觉-语言-动作模型(VLA) - VLA模型整合视觉感知、语言理解和动作生成,实现从"感知"到"执行"的闭环,代表方法包括RT-2(预训练对齐)、RoboMamba(动作动态建模)和3D-VLA(三维点云融合) [36][37][39] - 高效化趋势明显:OpenVLA通过LoRA降低训练成本,DeeR-VLA采用动态退出机制减少计算开销,VoxPoser支持语言驱动的实时策略调整 [39][40] - 多模态融合使机器人在操作任务中实现感知更强、理解更深和执行更准的三重跃迁 [47] 视觉-触觉融合 - 视觉提供全局物体信息(位置、形态),触觉补充局部反馈(接触力、滑动),提升抓取精度与稳定性,如FusionNet-A融合特征用于抓取规划 [41][42][48] - 触觉在抓取执行阶段实时调整力度和姿态,避免滑动或掉落,并通过时空注意力(如Li等人方法)或自监督学习(如MimicTouch)优化稳定性预测 [44][45][48] 视觉语言模型演进 - 预训练阶段通过对比学习(如CLIP)或自监督方法对齐多模态表示,实现零样本迁移和泛化能力 [50] - 跨模态对齐方法包括对比学习(拉近相关样本)、自监督学习(掩码预测)和跨模态生成(如DALL·E),解决模态间语义粒度差异 [51][55] - VLM从Flamingo、PaLM-E发展到Gemini、Llama-3.2,支持多模态(图像、文本、音频)和结构优化(MoE、稀疏注意力),增强指令理解与推理能力 [53][54] 挑战与未来方向 - 关键挑战包括跨模态对齐的语义偏差、算力有限平台的轻量化部署需求,以及真实环境中的传感器异质性和延迟问题 [58] - 未来重点方向包括结构化空间建模与记忆机制、可解释性与伦理适应性提升,以及发展具备长期学习能力的认知型VLM架构 [58]
具身目标导航/视觉语言导航/点导航工作汇总!
具身智能之心· 2025-08-12 07:04
点目标导航 - 无模型与基于模型学习规划方法比较研究 展示不同方法在点目标导航任务中的性能差异[4] - RobustNav基准测试平台专注于评估具身导航系统的鲁棒性 涵盖多种干扰场景[4] - 视觉里程计技术在点目标导航中表现出惊人效果 为定位提供新解决方案[5] - 可微分SLAM-Net框架实现粒子SLAM的端到端学习 提升视觉导航精度[5] - DD-PPO算法从25亿帧数据中学习接近完美的点目标导航器 训练规模达2.5B frames[5] - 占用预测技术实现高效探索与导航 通过环境结构预判提升路径规划效率[6] - 辅助任务加速点目标导航学习过程 通过多任务学习提升训练效果[6] - 主动神经SLAM方法结合学习与探索 实现动态环境下的自适应导航[6] 视听导航 - 学习语义无关且空间感知的表示 提升视觉-音频导航的泛化能力[7] - SoundSpaces 2.0仿真平台支持视觉-声学学习研究 提供多模态训练环境[8] - 对抗性音频-视觉导航研究声学干扰下的系统鲁棒性[8] - 动态声源的主动音频-视觉分离技术 实现移动环境下的声源定位[8] - Move2Hear系统通过主动移动实现声源分离 提升音频采集质量[8] - 语义音频-视觉导航结合语义理解与多模态感知[8] - 航路点设置学习框架优化音频-视觉导航路径规划[8] 对象目标导航 - DivScene基准测试评估LVLM在多样化场景中的对象导航能力[9] - MOPA模块化框架利用点目标智能体实现对象导航[9] - 自监督对象目标导航通过现场微调提升适应能力[9] - 协助请求学习框架优化具身视觉导航中的人机交互[9] - ProcTHOR程序化生成平台支持大规模具身AI训练[10] - 分层对象-区域图模型增强对象导航的空间推理能力[13] - 多对象导航基准MultiON评估语义地图记忆性能[14] - 对象导航重评估研究对智能体导航能力的标准化测试[16] 图像目标导航 - 实例感知的探索-验证-利用框架提升实例图像目标导航精度[17] - 可渲染神经辐射地图技术实现新型视觉导航表示[17] - 最后一公里具身视觉导航研究近距离精确定位问题[17] - 拓扑语义图记忆系统增强图像目标导航的环境理解[19] - 无强化学习导航方法探索免模拟训练新范式[19] - 视觉图记忆结合无监督表示学习提升导航效率[19] - 神经拓扑SLAM实现视觉导航中的地图构建与路径规划[19] 视觉语言导航 - SASRA智能体实现连续环境中的时空推理导航[22] - 语言对齐航路点监督方法提升连续环境导航精度[22] - 历史感知多模态Transformer融合时序与多模态信息[22] - Airbert领域内预训练模型专为视觉语言导航优化[26] - 航路点模型指导连续环境中的指令导航[26] - 环境随机混合技术增强视觉语言导航泛化能力[27] - 自激励通信智能体实现真实世界视觉对话导航[27] - 情景Transformer架构专为视觉语言导航设计[27] - Pathdreamer世界模型支持室内导航仿真预测[28]
正式开课啦!具身智能目标导航算法与实战教程来了~
具身智能之心· 2025-07-25 07:11
目标驱动导航技术概述 - 具身导航是具身智能的核心领域,涉及语言理解、环境感知、路径规划三大技术支柱,目标驱动导航通过赋予机器人自主决策能力成为最具代表性的方向 [2] - 目标驱动导航要求智能体在陌生三维环境中仅凭目标描述(坐标、图片、自然语言)自主完成环境探索与路径规划,实现从"听懂指令走对路"到"看懂世界自己找路"的跃迁 [2] - 技术落地需解决语义解析(识别空间特征与视觉属性)、环境建模(构建空间拓扑)、动态决策(避开移动障碍)等挑战,依赖计算机视觉、强化学习与3D语义理解的交叉突破 [2] 产业化应用场景 - 终端配送场景中,美团无人配送车通过动态路径重规划在复杂城市环境执行任务,Starship Technologies的园区配送机器人已在欧美高校和社区部署 [3] - 医疗、酒店及餐饮场景中,嘉楠科技、云迹科技、擎朗智能的商用服务机器人以及美国Aethon公司的TUG系列实现药品、文件和餐食自主配送 [3] - 人形机器人领域,宇树科技Unitree系列通过Habitat预训练完成基础导航任务,智元机器人集成目标驱动导航模块,特斯拉Optimus展示端到端操作能力 [3] 技术演进与生态发展 - Habitat仿真生态完整记录技术迭代轨迹,评测体系从点导航(PointNav)扩展至图像导航(ImageNav)、目标导航(ObjectNav)及移动抓取任务 [4] - 技术突破包括视觉预训练模型提升特征泛化能力,分布式强化学习框架(DDPPO)使PointNav任务SPL指标显著提升,大语言模型解决开放词汇导航难题 [4] - 当前技术梯度明显:PointNav和闭集ObjectNav接近人类表现,开放词汇物体导航和动态障碍物场景仍面临重大挑战 [4] 三代技术路线迭代 - 第一代端到端方法基于强化学习与模仿学习框架,在点导航与闭集图片导航任务中SPL指标逼近人类表现 [5] - 第二代模块化方法通过显式构建语义地图分解任务,利用预训练视觉语言模型(如CLIP)实现跨模态语义对齐,零样本目标导航任务成功率显著提升 [5] - 第三代LLM/VLM融合方法引入大语言模型知识推理能力,生成语义指导的探索策略,并通过视觉语言模型提升开放词汇目标匹配精度 [7] 技术挑战与学习路径 - 目标驱动导航需综合自然语言处理、计算机视觉、强化学习和场景图知识,领域论文数量繁多且碎片化,入门难度高 [9] - Habitat生态研究缺乏高质量文档,学习过程中需结合实战完成闭环但缺乏系统指导 [9] - 课程设计聚焦三大核心:快速入门核心技术栈、构建领域研究框架、理论结合实践完成算法复现与部署 [10][11][12] 课程体系架构 - 第一章系统构建理论基础与技术谱系,对比分析三代技术演进路径(端到端训练、模块化架构、LLM/VLM融合) [16] - 第二章深度解构Habitat仿真平台技术架构,实践内容包括RGB/Depth相机配置、物理属性参数化及NavMesh路径规划算法调试 [17][28] - 第三至五章分别解析端到端导航(ZSON/PIRLNav框架)、模块化导航(SemExp/VLFM路径)、LLM/VLM驱动系统(InstructNav/3Dmem模型)的算法设计 [19][21][23] - 大作业要求复现VLFM算法并探索实机部署,涵盖占据地图构建、边缘探索点生成、值地图设计及仿真到真实场景迁移 [25][29] 行业应用与人才需求 - 目标学员包括机器人抓取领域从业人员、具身智能研究者、计算机视觉/自动驾驶转行者,需具备Python/PyTorch基础及3060以上显卡算力 [33] - 课程培养目标涵盖Habitat仿真开发能力、零样本导航技术落地、Sim2Real部署流程掌握,匹配科研与工业应用需求 [33]