具身智能之心 - 财报，业绩电话会，研报，新闻 - Reportify

具身智能之心

搜索文档

RLinf开源！首个面向具身智能“渲训推一体化”的大规模强化学习框架

具身智能之心· 2025-09-01 04:02

文章核心观点 - 清华大学、北京中关村学院和无问芯穹联合推出面向具身智能的大规模强化学习框架RLinf 该框架通过创新的混合式执行模式、统一编程接口和自适应通信机制在具身智能训练场景下实现系统提速超120% 模型性能提升40%-60% 同时支持数学推理大模型训练并取得SOTA性能[5][7][9][24][29] 技术架构设计 - 系统采用六层级抽象架构包括用户层、任务层、执行层、调度层、通信层和硬件层支持混合式执行模式[7] - 提出宏工作流到微执行流映射机制(M2Flow) 实现过程式编程灵活性与声明式编程优化能力的结合[14] - 支持三种执行模式：共享式(组件常驻或交替使用GPU)、分离式(组件流水线执行)、混合式(自定义组合放置形式)[15][17] 性能表现 - 在具身智能训练中相比分离式执行模式系统提速超120%[7][24][27] - OpenVLA模型在Maniskill3任务中成功率从SFT后的30%-50%提升至80%-90% 涨幅40%-50%[24][28] - OpenVLA-OFT在LIBERO测试平台平均成功率97.3% 相比SFT模型提升62.4%[24][26] - 1.5B数学推理模型在AIME24/AIME25/GPQA-diamond数据集分别达48.44%/35.63%/38.46% 平均40.84%[29][30] - 7B数学推理模型在相同数据集达68.33%/52.19%/48.18% 平均56.23% 均实现SOTA[29][31] 系统优化特性 - 集成两套后端：Megatron+SGLang/vLLM支持已收敛模型架构 FSDP+HuggingFace支持未收敛模型架构[21] - 自适应通信库包含四项优化：自适应CUDAIPC/NCCL通信、负载均衡传输队列、多通道并发通信、快速通信重配置[19][22][25] - 自动化调度模块支持秒级在线扩缩容 70B模型1秒完成5D并行动态扩缩[23] - 支持LoRA训练、断点续训、多可视化工具集成正在集成SFT模块提供一站式服务[18] 应用范围 - 专门支持Vision-Language-Action Models(VLAs)+RL训练集成OpenVLA、OpenVLA-OFT、Pi 0等主流具身大模型[24] - 支持百余类具身智能任务涵盖CPU-based和GPU-based仿真器[24] - 率先实现Pi 0的大规模强化学习微调相关算法将于9月底发布[24] - 框架设计具通用性可快速支持其他非具身智能应用场景[29]

渲训推一体化

渲训推一体化

最新综述！多模态融合与VLM在具身机器人领域中的方法盘点

具身智能之心· 2025-09-01 04:02

多模态融合与视觉语言模型综述 - 文章系统综述了多模态融合和视觉语言模型在机器人视觉领域的应用，涵盖语义场景理解、3D目标检测、SLAM、具身导航和操作控制等任务，并比较传统方法与新兴大模型方法的优劣 [3][4][11][57] 语义场景理解 - 多模态融合通过整合RGB图像、深度信息、LiDAR点云和语言数据，显著提升复杂环境下物体识别、语义分割和关系建模的准确性与鲁棒性 [9] - 主流融合策略分为早期融合（输入层直接拼接）、中期融合（特征层交互如注意力机制）和后期融合（决策层整合），现代方法趋向统一架构实现隐式协作 [10][12] - 实现路径包括编码器-解码器架构（如DeepLabv3+）、基于注意力的Transformer（如MRFTrans）和图神经网络方法（如MISSIONGNN） [12] 3D目标检测 - 多模态融合结合相机（丰富纹理）和LiDAR（精准几何），解决单一传感器在遮挡、极端天气或低反射物体下的性能缺陷 [16][18][19] - 融合设计核心涉及何时融合（早期/中期/后期）、融合内容（特征图、点云、BEV视图）及融合方法（从非注意力型到基于注意力的跨模态交互） [17] - 技术演进从早期MV3D、AVOD到TransFusion（Transformer建模跨模态依赖）和BEVFusion，并扩展雷达-相机融合（如CenterFusion）和4D雷达提升动态感知 [20][21][22] 具身导航 - 分为目标导向导航（依赖视觉语义与空间先验）、指令跟随导航（结合自然语言理解）和基于对话的导航（主动交互与动态调整），体现从感知到交互的演进 [24][26][27][28] - 代表性系统如InstructNav（零样本规划）和NaVid（视频驱动泛化），强调多模态融合在复杂环境中的适应能力 [27][33] 视觉定位与SLAM - 多模态融合（如DeepVO、D3VO）和自监督学习解决光照变化、遮挡及动态场景中的定位问题，神经隐式表示（如NeRF）压缩场景几何与语义信息 [29][30] - SLAM从传统LiDAR-SLAM（几何精准）和V-SLAM（语义丰富）向多模态融合（如V-LOAM、LIC-Fusion）和神经化转型（如UVIO用Transformer建模时序） [34][35] - 未来方向包括轻量化、自监督与感知决策一体化，提升在动态环境中的语义理解与规划能力 [35][38] 视觉-语言-动作模型（VLA） - VLA模型整合视觉感知、语言理解和动作生成，实现从"感知"到"执行"的闭环，代表方法包括RT-2（预训练对齐）、RoboMamba（动作动态建模）和3D-VLA（三维点云融合） [36][37][39] - 高效化趋势明显：OpenVLA通过LoRA降低训练成本，DeeR-VLA采用动态退出机制减少计算开销，VoxPoser支持语言驱动的实时策略调整 [39][40] - 多模态融合使机器人在操作任务中实现感知更强、理解更深和执行更准的三重跃迁 [47] 视觉-触觉融合 - 视觉提供全局物体信息（位置、形态），触觉补充局部反馈（接触力、滑动），提升抓取精度与稳定性，如FusionNet-A融合特征用于抓取规划 [41][42][48] - 触觉在抓取执行阶段实时调整力度和姿态，避免滑动或掉落，并通过时空注意力（如Li等人方法）或自监督学习（如MimicTouch）优化稳定性预测 [44][45][48] 视觉语言模型演进 - 预训练阶段通过对比学习（如CLIP）或自监督方法对齐多模态表示，实现零样本迁移和泛化能力 [50] - 跨模态对齐方法包括对比学习（拉近相关样本）、自监督学习（掩码预测）和跨模态生成（如DALL·E），解决模态间语义粒度差异 [51][55] - VLM从Flamingo、PaLM-E发展到Gemini、Llama-3.2，支持多模态（图像、文本、音频）和结构优化（MoE、稀疏注意力），增强指令理解与推理能力 [53][54] 挑战与未来方向 - 关键挑战包括跨模态对齐的语义偏差、算力有限平台的轻量化部署需求，以及真实环境中的传感器异质性和延迟问题 [58] - 未来重点方向包括结构化空间建模与记忆机制、可解释性与伦理适应性提升，以及发展具备长期学习能力的认知型VLM架构 [58]

多模态融合

视觉语言模型（VLM）

跨模态对齐

语义场景理解

三维目标检测

多模态融合

视觉语言模型（VLM）

跨模态对齐

语义场景理解

三维目标检测

时代2025 AI百人榜出炉：梁文锋、王兴兴等入选，华人影响力爆棚

具身智能之心· 2025-09-01 04:02

AI领域最具影响力人物 - 《时代》周刊发布2025年度AI领域最具影响力100人名单华人面孔显著增加包括华为任正非、DeepSeek梁文锋、宇树科技王兴兴等[2][5] 领导者(Leaders) - 华为创始人任正非推动公司长期高强度AI投资打造自主技术体系包括昇腾AI芯片、昇思深度学习框架和盘古大模型[8] - DeepSeek CEO梁文锋坚持自研路线 2025年1月发布R1开放权重模型以少量计算能力达到全球最佳水平[11] - NVIDIA联合创始人黄仁勋领导公司转型为AI计算领导者 CUDA平台和GPU成为深度学习核心引擎[14] - 台积电董事长魏哲家凭借7纳米/5纳米/3纳米制程技术优势为NVIDIA/AMD/苹果代工AI处理器[17] - Meta超级智能实验室联合负责人汪滔创立Scale AI 提供数据标注/评估/RLHF全套解决方案 2024年公司创收超10亿美元[19] 开拓者(Innovators) - 宇树科技CEO王兴兴推动具身智能发展开发高性价比四足机器人和通用人形机器人H1平台[22] - 小马智行CEO彭军推动自动驾驶商业化 2025年在中国一线城市实现大规模全无人Robotaxi运营[25] - Surge AI创始人Edwin Chen创办数据标注公司客户包括Google/Anthropic/OpenAI 公司估值超250亿美元[28] 塑造者(Shapers) - 斯坦福教授李飞飞创建ImageNet项目催生计算机视觉领域深度学习革命[31] - 推动"以人为本AI"理念致力于将AI技术用于解决医疗等全球性问题[32] 思想者(Thinkers) - 清华大学教授薛澜担任新一代人工智能治理专业委员会主任参与制定AI伦理规范和发展战略[35] - 深度参与AI法规框架制定推动建立全球负责任的人工智能生态系统[36] - 华人作家Karen Hao出版《Empire of AI: Dreams and Nightmares in Sam Altman's OpenAI》揭露OpenAI内幕[39] 其他AI领域重要人物 - OpenAI CEO Sam Altman领导发布GPT系列和ChatGPT 推动生成式AI技术普及[43] - Meta CEO Mark Zuckerberg确立AI优先战略开源Llama系列大模型影响全球开放AI生态[47] - Anthropic CEO Dario Amodei曾领导GPT-2/GPT-3项目创立公司旨在构建更安全可靠的AI[49] - 亚马逊CEO Andy Jassy创立AWS 当前通过Amazon Bedrock/Amazon Q推动生成式AI创新[51] - 谷歌首席科学家Jeffrey Dean团队提出Transformer架构合并Google Brain和Google DeepMind为Gemini[58] - OpenAI首席科学家Jakub Pachocki领导GPT-4训练 2019年团队开发的AI击败《Dota 2》世界冠军[60]

昇腾（Ascend）系列AI芯片

昇思（MindSpore）深度学习框架

昇腾（Ascend）系列AI芯片

昇思（MindSpore）深度学习框架

吴恩达最新来信：是时候关注并行智能体了

具身智能之心· 2025-09-01 04:02

并行智能体发展趋势 - 并行智能体正成为提升AI能力的新方向通过多个智能体协作处理不同任务实现速度快效率高 [2][3] - 传统AI能力提升依赖scaling law 即通过更多数据和算力获得性能提升但需要长时间输出结果 [6][7][8] - 并行agent在提升性能的同时让用户无需长时间等待结果且大语言模型token成本下降使该方法可行 [9][10] 并行智能体应用场景 - 多个agent并行抓取分析网页快速生成深度研究报告 [11] - 多个agent协同处理代码库不同部分加快编程任务完成速度 [11] - 多个agent在后台并行工作由监督agent向用户提供反馈实现并行异步控制 [11] 技术挑战与研究进展 - 协调多个智能体并行执行任务存在挑战类似于人类将复杂任务拆分给多个工程师完成的难度 [13][14] - Code Monkeys论文通过并行生成多个轨迹生成多样化候选解决方案提高编程问题解决效率 [15][17] - Together Mixture Of Agents架构同时利用多个大语言模型提升性能并可调整分层架构进一步优化 [18][19] 行业前景展望 - 最优利用并行agent仍需大量研究与工程探索预计能高效并行工作的agent数量将非常庞大 [22] - 并行计算在AI领域具有历史成功先例 2009年GPU大规模应用曾显著提升卷积神经网络训练效率 [23][24]

并行智能体

大语言模型

具身智能之心知识星球

具身智能之心社群

并行智能体

大语言模型

具身智能之心知识星球

具身智能之心社群

开课倒计时！3个月搞透具身大脑+小脑算法

具身智能之心· 2025-08-31 02:33

具身智能行业概述 - 具身智能强调智能体与物理环境的交互与适应聚焦智能体在物理世界中感知环境、理解任务、执行动作并反馈学习的能力 [1] - 大脑和小脑构成具身机器人核心模块大脑负责思考感知（语义理解和任务规划）小脑负责执行（高精度运动执行） [1] 产业发展动态 - 近2年具身明星团队陆续创业成立星海图、银河通用、逐际动力等公司推动具身本体和大小脑技术进步 [3] - 华为2024年底启动"全球具身智能产业创新中心" 与乐聚机器人、大族机器人等企业合作建设具身智能大脑和小脑关键技术 [5] - 京东自2025年5月以来连续投资智元机器人、千寻智能、逐际动力等公司强化物流科技与家庭服务场景效率 [5] - 腾讯、蚂蚁集团、小米等科技巨头通过战略投资与合作布局加快构建具身智能产业生态 [5] - 国外Tesla/Figure AI推进工业与物流机器人应用美国投资机构支持Wayve、Apptronik等公司落地自动驾驶与仓储机器人 [5] - 国内企业以产业链投资与综合平台驱动具身智能落地国外科技巨头侧重基础模型、模拟环境与类人机器人原型研发 [5] 技术演进路径 - 第一阶段聚焦抓取位姿检测通过点云或图像预测末端执行器姿态实现静态物体抓取但缺乏任务上下文和动作序列建模 [6] - 第二阶段进入行为克隆阶段借助专家演示数据学习从感知到控制的端到端映射具备模仿人类完成复杂任务能力 [6] - 第三阶段2023年兴起Diffusion Policy方法通过扩散模型生成整个动作轨迹提升策略稳定性与泛化能力 [6] - 2024年进入Vision-Language-Action模型阶段融合视觉感知、语言理解与动作生成模块支持零样本或小样本快速泛化 [7] - 第四阶段2025年探索VLA模型与强化学习、世界模型、触觉感知等模块融合提升长时任务试错能力与环境动态预测能力 [8] - 技术演进从低层感知到高层理解逐步迈向通用任务和开放环境的智能体时代 [9] 应用场景与市场需求 - 技术发展推动人形机器人、机械臂、四足机器人等产品落地服务于工业、家居、餐饮、医疗康复等领域 [9] - 相关产品和融资络绎不绝岗位呈现爆发式增长导致许多人员转入具身智能领域 [9] - 从研究走向落地对工程能力提出更高要求需要完成策略训练与仿真测试、模型训练部署、强化学习应用等系统能力 [12] 人才需求特征 - 需熟悉具身智能基本功能和任务具备Python和Pytorch基础拥有3090ti及以上算力显卡 [18] - 目标人群包括具身算法从业人员、VLA/RL研究方向学生、计算机视觉或自动驾驶转行人员等 [18] - 需掌握仿真、DP、VLA、VLA+RL模型原理应用以及触觉信息VLA方案和世界模型应用 [18]

具身大脑+小脑算法课程

人形机器人

四足机器人

具身大脑+小脑算法课程

人形机器人

四足机器人

最新综述！多模态融合与VLM在具身机器人领域中的方法盘点

具身智能之心· 2025-08-31 02:33

多模态融合与视觉语言模型综述 - 文章系统综述了多模态融合和视觉语言模型在机器人视觉中的应用涵盖语义场景理解三维目标检测 SLAM 具身导航和操作控制等任务[4] - 比较了传统方法与新兴大模型方法的优缺点并分析相关数据集与基准测试[4] - 提出未来发展方向包括跨模态自监督学习轻量化融合架构 Transformer驱动的统一范式以及真实环境中的高效部署策略[4] 多模态融合在机器人视觉任务中的应用 - 多模态融合整合RGB图像深度信息 LiDAR点云语言触觉与位置信息提升机器人感知全面性[3] - 主流融合策略分为早期融合中期融合和后期融合三类[12] - 现代多模态模型在统一架构中完成特征提取模态交互和任务预测减少阶段设计麻烦并使信息交换更顺畅[10] 语义场景理解 - 涉及物体识别语义分割和关系建模仅靠RGB图像在复杂环境下易受光照变化物体遮挡和多目标重叠影响[9] - 多模态融合通过引入深度 LiDAR 语言等额外信息大幅提升场景理解的准确性和鲁棒性[9] - 主流实现路径包括编码器-解码器架构基于注意力的Transformer和图神经网络方法[12] 三维目标检测 - 自动驾驶系统中关键感知任务准确识别并定位行人车辆和障碍物[15] - 单一传感器各有短板相机能捕捉纹理和颜色但缺乏深度信息 LiDAR提供精准空间几何结构但看不懂语义和纹理[15] - 多模态融合设计需解决何时融合融合什么和如何融合三个核心问题[16] 方法演进 - 从早期依赖直接拼接或统计操作演化出点级体素级区域级融合策略到Transformer引入实现智能交互[19] - 代表性方法包括PointPainting和TransFusion 前者对图像做语义分割并涂到点云上后者用Transformer解码器建模跨模态依赖[21] - 探索雷达-相机和雷达-LiDAR融合雷达优势在于直接测量速度且在恶劣天气中稳定[20] 具身导航 - 核心思想是让机器人像真的身处环境中一样去探索感知和行动强调自主决策与动态适应能力[23] - 分为目标导向导航指令跟随导航和基于对话的导航三类从感知驱动到语言理解再到交互感知演进[23] - 基于对话的导航中机器人能够主动发问实时交互提升任务灵活性特别适合长时序多步骤复杂任务[27] 视觉定位与SLAM - 视觉定位在光照变化遮挡严重环境动态频繁场景中是大难题多模态融合思路推进问题解决[28] - 自监督学习通过光度一致性和几何一致性物理约束进行学习不依赖人工标注[28] - SLAM从单打独斗变成抱团取暖通过融合LiDAR 相机 IMU GPS 雷达等多源信息提升系统稳定性[33] 视觉-语言-动作模型 - 结合视觉感知语言理解和动作规划让机器人基于多源信息主动决策和执行[35] - 核心思路是从视觉模态获取世界状态通过语言模态理解任务语义将多模态信息融合到统一表示再映射成动作序列[36] - 代表性方法包括RT-2 RoboMamba 3D-VLA OpenVLA DeeR-VLA和VoxPoser[38] 视觉与触觉融合 - 视觉负责提供全局信息如物体位置形态和姿态触觉提供局部反馈如接触力摩擦和滑动[40] - 在抓取生成阶段视觉帮助确定空间姿态和位置触觉补充表面特性和受力信息用于选择最优抓取点[41] - 抓取稳定性预测中视觉-触觉融合展现巨大优势让机器人从只会抓升级为会思考怎么抓[44] 视觉语言模型演进 - 预训练几乎是整个系统起点通过大规模图像-文本数据联合训练学会视觉与语言间深层语义关联[49] - 跨模态对齐是关键需在不同模态间建立精确对应关系主流方法分为对比学习自监督学习和跨模态生成三类[51] - 自2022年以来VLM发展迅速从Flamingo PaLM-E到MiniGPT-4 LLaVA 再到Gemini Llama-3.2 多模态范围扩展到图像文本音频甚至跨语言[52] 核心创新点 - 大规模图文预训练先喂饱模型海量图文对为跨模态推理打下坚实基础[53] - 指令微调用自然语言告诉模型需求学会举一反三甚至猜未说出口需求[53] - 结构优化采用MoE专家混合和稀疏注意力等黑科技在提升性能同时节省算力[53] 结论与未来方向 - 跨模态对齐策略决定机器人感知能力上限但不同模态间语义粒度差异和特征对不上号仍是硬伤[57] - 在算力有限机器人平台部署大规模VLM需靠轻量化与多阶段自适应机制精打细算[57] - 未来研究可重点关注引入结构化空间建模和记忆机制提升系统可解释性与伦理适应性发展具备长期学习能力的认知型VLM架构[57]

多模态融合

视觉语言模型（VLMs）

跨模态对齐

多模态融合

视觉语言模型（VLMs）

跨模态对齐

具身智能之心人形机器人交流群成立啦~

具身智能之心· 2025-08-31 02:33

具身智能之心人形机器人交流群来啦！欢迎从事人形运控、VLA模型、数采、硬件等相关方向的同学加入。添加小助理微信AIDriver005，备注昵称+人形+加群。注意：有备注才能通过哦~ ...

人形机器人

人形机器人

直播分享！“具身数据困境”：仿真技术、真实数据与世界模型的碰撞交融

具身智能之心· 2025-08-29 16:03

行业技术路径 - 具身智能发展主要围绕仿真技术、真实数据与世界模型三大路径展开这些路径既存在竞争又相互融合 [3] - 物理仿真技术已进入深水区真实数据到仿真的转换技术（real2sim）正推动仿真路线发展 [11] - 业界构建了超大规模训练场Agibot World 包含百万真机与千万仿真数据集系统研究具imbing智能的Scaling Law方法论 [4] 核心技术突破 - 端到端自动驾驶方案UniAD获IEEE CVPR 2023最佳论文奖其技术方案被特斯拉2023年推出的FSD采用 [4] - 开发全球首个开源模块化真实感自动驾驶仿真器MARS 并获得CICAI 2023最佳论文Runner-up奖项 [5] - 神经渲染方法SlimmeRF实现渲染阶段精度与速度的可调节获得3DV 2024最佳论文奖 [5] - Open X-Embodiment项目获得ICRA 2024最佳论文奖 CAST项目获得SIGGRAPH 2025最佳论文奖 [7] 数据争议与解决方案 - 针对真实数据不可替代性的争论行业探讨这是策略选择问题还是AI演进必经之路 [3][11] - Genie3世界模型的问世引发行业关注世界引擎可能成为解决具身智能数据问题的终极方案 [11] - 俯视图感知方法BEVFormer成为业界广泛使用的纯视觉检测基准入选2022年百强影响力AI论文榜单 [4] 学术与产业贡献 - 研究团队在CVPR/ICCV/ECCV/SIGGRAPH/NeurIPS/ICLR等顶级会议发表50余篇论文多次获得最佳论文奖项 [5][7] - 学术成果获得多项荣誉包括2024年中国吴文俊人工智能青年科技奖香港博士政府奖学金等 [4][7] - 构建的具身智能训练场包含百万级真机与千万级仿真数据集为行业提供大规模训练基础设施 [4]

ReconVLA：基于重建式VLA模型的机器人感知方法

具身智能之心· 2025-08-29 16:03

视觉-语言-动作模型技术突破 - 提出重建式视觉-语言-动作模型ReconVLA 通过目标区域重建任务实现隐式视觉定位显著提升机器人操控精度[3][8][14] - 核心创新在于引入扩散变换器进行高保真区域重建迫使模型将注意力像聚光灯般聚焦关键物体[3][11][16] - 在CALVIN长时序任务中首任务成功率接近95% 平均完成子任务数达3.95个[9][20][21] 技术实现架构 - 采用双分支协同架构：视觉重建分支负责目标区域编码与重建动作预测分支生成离散动作token驱动机械臂[13] - 利用冻结视觉tokenizer将凝视区域编码为潜在token 保留细粒度视觉信息[3][13] - 通过联合优化重建损失与动作预测损失增强视觉表示可迁移性与鲁棒性[13][19] 数据集与预训练 - 构建包含10万条轨迹、200万样本的大规模预训练数据集聚合BridgeData V2、LIBERO、CALVIN等多个开源数据集[8][19] - 采用自动化标注流程利用微调Grounding DINO自动分割指令对应的凝视区域图像[8][19] - 消融实验表明大规模预训练使模型在CALVIN任务成功率从88.8%提升至95.6%[19][20] 性能表现对比 - 在ABCD→D长时程任务中以70.5%成功率完成全部5个子任务平均完成4.23个子任务显著优于主流方案[21][22] - 对比显式定位与思维链定位范式隐式定位在保持端到端训练优势的同时避免坐标回归困难[10][11] - 真实机器人测试中对未见物体任务保持40%以上成功率远超OpenVLA和PD-VLA的近乎零成功率[25][26] 实际应用验证 - 在六自由度机械臂平台上执行叠放碗具、水果放置、翻转杯子、清理餐桌等任务成功率高达90%[25] - 视觉系统采用双深度相机配置：底座视角RealSense D515和末端执行器视角ORBBEC Dabai[25] - 注意力热图显示模型能动态调整凝视区域在干扰物多的场景中精准锁定目标物体[4][9]

视觉-语言-动作（VLA）模型

视觉-语言-动作（VLA）模型

HA-VLN：具备动态多人互动的视觉语言导航基准与排行榜

具身智能之心· 2025-08-29 16:03

研究背景与动机 - 传统视觉语言导航系统忽视人类动态和部分可观测性而现实导航场景涉及动态人类活动如人群移动和个人空间需求[6] - 提出人类感知视觉语言导航任务要求智能体在遵循语言指令同时应对动态人类活动预测人类运动尊重个人空间并调整路径避免碰撞[6] - 人类感知视觉语言导航任务将离散和连续导航范式统一在明确社会意识约束下进行包括标准化任务定义升级数据集和模拟器基准测试真实世界测试和公开排行榜[8] 任务定义与框架 - 人类感知视觉语言导航任务状态空间包括智能体3D位置朝向和以自我为中心视图离散环境中智能体在预定义视点间跳跃连续环境中智能体看到90°视场RGB+D馈送并进行小增量移动[9] - 动作空间在两种环境中均为动作分布动态人类模型根据HAPS 2.0中3D运动轨迹自然移动个人空间要求智能体避免过于接近人类在离散环境中距离小于3米在连续环境中距离小于半径之和[9] - 以人为中心指令描述人及其活动需要文本提示与实时视觉输入一致性详细人类位置和运动通过多阶段管道标注涉及广泛标记和验证确保真实性[9] 数据集与模拟器 - HAPS 2.0数据集包含486个运动序列涵盖室内外活动通过两轮人工验证对齐文本描述和运动数据消除HAPS 1.0中超过一半不准确配对最终得到172个精确对齐运动[12][14] - HAPS 2.0在运动准确性环境兼容性失败案例数量和标注工作量等方面优于HAPS 1.0 包含26个不同区域覆盖90个建筑场景涵盖486个人类活动[14] - HA-VLN模拟器基于HAPS 2.0数据集提供两个互补模块HA-VLN-CE用于连续导航和HA-VLN-DE用于离散导航共享统一API 提供一致人类状态查询动态场景更新和碰撞检查[12] 标注与验证 - 标注流程采用粗粒度到细粒度方法设置九个RGB相机位置和角度提供全面多视角视图用于检测人类与周围物体间潜在碰撞或对齐问题[16][19] - 细粒度标注协议通过六步程序微调人类位置和朝向包括初始视图多相机观察垂直碰撞检查水平平移侧相机审查和最终输出[19] - 使用大模型如ChatGPT-4和LLaMA-3-8B-Instruct提出合理多人场景对语言模型产生候选互动进行四轮手动细化和验证确保上下文对齐[22] 基准测试与结果 - HA-R2R数据集扩展R2R-CE 增加16,844条精心策划指令强调社交细微差别如对话走廊交叉和近碰撞事件测试分区包含3,408条指令分布在18栋保留建筑中强调多人路线[28][36] - 在HA-VLN任务中整合模型时出现显著增益例如BEVBert成功率在已见分割中从0.19提高到0.27 在未见分割中从0.15提高到0.21[40] - 在连续导航基准测试中 HA-VLN-CMA-Base在已见验证集上获得7.63导航误差 0.77总碰撞率和0.05碰撞率成功率63.09[39] 真实世界验证 - 在四种室内空间办公室客厅走廊大厅中部署训练有素智能体每个空间有2-4名自由移动志愿者实验在适度拥挤条件下进行面临狭窄走廊或人群突然聚集挑战[36][47] - 使用Unitree Go2-EDU四足机器人配备Intel Realsense D435i RGB-D相机 MID360 3D LiDAR和IMU 用于机载感知和控制[36] - 机器人经常暂停或让路避开迎面而来行人在没有旁观者情况下顺利导航但在狭窄走廊或人群突然聚集时出现碰撞[51] 性能评估 - HA-VLN-VL智能体基于Recurrent VLNBERT 采用模仿学习方法在复杂设置中通过更强多模态基础提升性能[31] - HA-VLN-CMA智能体基于交叉模态注意力在每个时间步融合文本嵌入和视觉特征通过多头注意力机制产生联合表示然后通过MLP映射到动作概率[33] - 在真实世界测试中 HA-VLN-VL智能体在办公室环境中获得0.42无碰撞成功率和0.11碰撞率在客厅环境中获得0.43无碰撞成功率和0.17碰撞率[48] 挑战与未来方向 - 社交导航需要无碰撞运动并尊重个人空间人类对齐指令可能涉及短暂活动或互动自适应重规划要求应对人类不可预测阻塞或解阻通道[9] - 部分可观测性和突然群体形成仍然是挑战特别是在狭窄通道或拥挤路口需要进一步改进碰撞预测和反应控制[51] - 未来工作可集中在提高智能体对人员行为预测能力在更复杂动态环境中测试以及探索技术在其他领域如服务机器人或自动驾驶汽车中应用[51]

人类感知的视觉语言导航（HA-VLN）

视觉语言导航（VLN）

HA-VLN模拟器

HA-R2R数据集

人类感知的视觉语言导航（HA-VLN）

视觉语言导航（VLN）

HA-VLN模拟器

HA-R2R数据集