具身智能之心 - 财报，业绩电话会，研报，新闻 - Reportify

具身智能之心

搜索文档

重塑具身导航策略！RSRNav：基于空间关系推理的图像目标导航

具身智能之心· 2025-07-02 10:18

研究背景 - 视觉导航是具身智能中的重要研究领域，要求智能体在不熟悉的环境中导航以到达特定目标，图像目标导航（ImageNav）任务在家庭机器人、增强现实系统和视觉障碍人士辅助等领域有潜在应用 [5] - 现有ImageNav方法分为模块化方法和端到端方法，模块化方法将任务分解为多个独立子任务，端到端方法直接从数据中学习感知-动作策略 [5] - 现有方法在导航效率和鲁棒性方面仍面临挑战，语义特征向量无法提供目标方位信息，可能导致多余动作影响效率，且用户与智能体视角不一致会导致性能下降 [5] 研究方法 - 提出RSRNav方法，通过在导航过程中持续推理目标与当前观测之间的空间关系来引导导航动作，解决现有方法导航效率低下和对视角不一致敏感的问题 [5] - 通过计算目标图像与当前观测图像特征之间的相关性来建模空间关系，设计了从"极简关系"到"方向感知关系"三种逐步增强的关系建模版本 [5] - 使用强化学习训练导航策略，奖励信号由两个子奖励函数组成，分别指导智能体学习接近目标和调整角度 [13] 技术实现 - 采用简单ResNet-9网络对目标图像和当前图像进行编码，不进行任何预训练 [8] - 逐步强化相关性计算，从极简关系（两个相关性分数）到密集关系（全局相似性矩阵）再到方向感知关系（多尺度相关性向量） [12][13] - 使用PPO算法进行端到端训练，策略网络设置为2层GRU，嵌入大小为128，在4×3090 GPUs上训练400M步 [19] 实验结果 - 在"用户匹配目标"设置下，RSRNav的SPL为56.6%，SR为83.2%，显著优于其他方法 [20] - 在Gibson数据集上，"极简关系"SPL为16.1%，"密集关系"SPL为53.2%，"方向感知关系"SPL提高到61.2% [22] - 在更极端的目标相机设置下（高度、俯仰角和视场角变化更大），RSRNav仍表现出色，SPL为22.8%，SR为40.2% [23] 应用潜力 - RSRNav在跨域泛化方面表现优异，在MP3D和HM3D数据集上均取得最佳性能，显示出处理视角不一致和泛化到新场景的强能力 [20] - 方法具有最小参数数量，在保持高性能的同时更适合实际应用 [22] - 可视化显示RSRNav导航路径更直接，能更精确调整角度对准目标 [23]

图像目标导航

图像目标导航

RoboScape：基于物理信息的具身世界模型，动作可控性提升68.3%

具身智能之心· 2025-07-02 10:18

研究背景与核心问题 - 具身智能领域的世界模型存在物理感知局限，尤其在涉及接触的机器人场景中，生成的视频常出现不真实的物体变形或运动不连续问题[4] - 现有模型过度依赖视觉令牌拟合，缺乏物理知识 awareness，此前整合物理知识的尝试存在计算复杂、建模范围有限等问题[4] - 核心问题是如何在统一、高效的框架中整合物理知识[4] 核心方法 - 聚焦机器人操作场景，学习具身世界模型作为动力学函数，基于过去的观测和机器人动作预测下一个视觉观测[5] - 设计了四步处理流程构建含物理先验的多模态具身数据集[6] RoboScape模型架构 - 基于自回归Transformer框架，通过两个物理感知辅助任务整合物理知识[8] - 物理属性标注：生成深度图序列并进行关键点轨迹追踪，提取时间深度一致性和关键点运动轨迹[8] - 视频切片：结合相机边界检测和动作语义，将视频切分为属性归一化、运动一致的片段[8] - 片段过滤：用FlowNet过滤运动模糊或模式混乱的片段，确保训练数据有效性[8] - 片段分类：按动作难度和场景分类，支持课程学习策略[8] 时间深度预测 - 增加时间深度预测分支，采用双分支协同自回归Transformer（DCT）[10] - 通过跨分支交互，将深度分支的中间特征与RGB特征融合，使RGB生成保持精确几何结构[10] 自适应关键点动态学习 - 通过自监督追踪接触驱动的关键点动态，隐式编码材料属性[11] - 通过损失强制采样关键点视觉令牌的时间一致性，并引入关键点引导的注意力机制[12] 实验验证 - 采用AgiBotWorldBeta数据集的50,000个视频片段，涵盖147项任务和72项技能[16] - 对比4种先进模型，RoboScape在外观保真度、几何一致性、动作可控性上均优于基线[15] - 消融实验显示，时间深度学习和关键点动态学习对性能至关重要[17] 下游应用验证 - 在Robomimic Lift任务中，仅用生成数据训练的Diffusion Policy性能接近真实数据训练结果[19] - 在LIBERO任务中，生成数据训练的模型性能超过真实数据训练的基线[20] - 作为政策评估器时，与真实模拟器的Pearson相关系数达0.953[22] 结论与展望 - RoboScape通过多任务联合训练框架，将物理知识高效整合到视频生成中[23] - 未来计划将生成式世界模型与真实机器人结合，验证在实际场景中的表现[24]

RoboScape模型

RoboScape模型

VQ-VLA：大规模合成数据驱动动作tokenizer，推理速度提升近三倍

具身智能之心· 2025-07-02 10:18

视觉-语言-动作模型（VLA）的挑战与改进 - 动作表示效率低：传统连续动作离散化方法难以捕捉复杂时空动态，导致长时域任务中累积误差增大 [3][4] - 数据依赖瓶颈：真实机器人数据采集成本高，限制模型泛化能力 [3][4] 核心贡献 - 通用动作分词器框架：基于卷积残差VQ-VAE的框架替代传统分桶离散化方法 [4] - 合成数据驱动缩放：利用超大规模合成数据（100倍于先前工作）训练分词器，纯合成数据训练的VQ在真实任务接近混合数据性能 [4] - 性能全面优化：长时域任务成功率最高提升30%，动作执行频率从4.16Hz提升至11.84Hz [4][13] 关键技术方案 - 卷积残差VQ-VAE架构：采用2D时序卷积层替代传统MLP，LIBERO-10任务成功率提升6.6%（60.0% vs 53.4%） [7][8] - 残差量化：通过多阶段残差向量量化（RVQ）压缩动作序列 [10] - 渐进式训练策略：嵌入增强（时间嵌入和动作类型嵌入）使"翻正锅具"任务成功率提升5% [11][12] 关键实验发现 - 仿真环境（LIBERO）：卷积残差VQ-VAE在LIBERO-10任务成功率60.0%，显著高于MLP版的53.4% [17] - 真实机器人（Franka Research 3）：纯合成数据训练的VQ在真实任务表现接近混合数据版本，证实合成-真实域差距极小 [17] - 长时域任务：玩具放入抽屉任务成功率30.0% vs 基线5.0%，所有杯子放入篮子任务成功率50.0% vs 基线15.0% [17] 消融研究与未来方向 - 动作分块机制：VQ分块在LIBERO-90成功率86.61%，显著高于自回归分块的66.53% [19] - 嵌入层贡献：加入时空嵌入使LIBERO-90成功率提升0.99% [19] - 未来方向：整合更大规模合成数据集（如RLBench），结合蒸馏与量化技术进一步加速推理 [19]

视觉-语言-动作模型（VLA）

通用动作分词器框架

卷积残差VQ - VAE

视觉-语言-动作模型（VLA）

通用动作分词器框架

卷积残差VQ - VAE

机器人导航的2个模块：视觉语言导航和目标导航有什么区别？

具身智能之心· 2025-07-02 10:18

机器人导航技术演变 - 技术路线从传统建图定位导航向基于大模型方案演变分为视觉语言导航(VLN)和目标导航两类 [1] - VLN核心是"听懂指令走对路" 目标导航核心是"看懂世界自己找路" [1][6] 视觉语言导航(VLN)技术架构 - 任务包含语言指令理解、环境感知、运动策略规划三方面系统由视觉语言编码器、环境历史表征、动作策略模块构成 [2] - 编码器采用预训练视觉语言模型 LLM用于指令拆解和任务拆分是主流范式 [2] - 序列决策采用隐式端到端(隐变量表示)或显式端到端(拓扑图/BEV语义地图/神经辐射场建模)方法 [2] - 策略网络学习从标注数据提取模式转向LLM先验知识蒸馏 [3] 目标导航技术特征 - 需在陌生3D环境中仅凭目标描述自主完成探索与路径规划 [4] - 实现语义解析(识别空间特征与视觉属性)、环境建模(构建空间拓扑)、动态决策(避开障碍物)的交叉突破 [6] 商业落地应用 - 终端配送场景：美团无人车动态路径重规划 Starship园区配送机器人欧美落地 [8] - 医疗/酒店/餐饮场景：嘉楠科技、云迹科技、擎朗智能商用机器人实现药品/文件/餐食自主配送美国Aethon公司TUG系列应用 [8] - 人形机器人领域：宇树科技Unitree通过Habitat预训练智元工业场景集成导航模块特斯拉Optimus展示端到端操作能力 [8][9] - 导航技术岗位需求旺盛部分公司开出七位数年薪 [9] 技术学习挑战 - 需掌握自然语言处理、计算机视觉、强化学习、图神经网络等多领域知识知识碎片化导致入门困难 [10] 相关培训课程内容 - VLN课程涵盖仿真环境、基准测试、端到端方法、数据增强策略等目标导航课程包含语义框架、Habitat仿真、LLM/VLM驱动系统等 [13][16] - 学习成果包括掌握技术框架、3D仿真环境开发、零样本导航实现、Sim2Real部署等能力 [15][17]

视觉语言导航

美团无人配送车

特斯拉Optimus

视觉语言导航

美团无人配送车

特斯拉Optimus

清华大学最新！RoboScape：基于物理信息的具身世界模型，动作可控性提升68.3%

具身智能之心· 2025-07-02 07:44

研究背景与核心问题 - 具身智能领域的世界模型存在物理感知局限，尤其在涉及接触的机器人场景中，生成的视频常出现不真实的物体变形或运动不连续等问题[3] - 现有模型过度依赖视觉令牌拟合，缺乏物理知识 awareness，此前整合物理知识的尝试存在计算复杂、窄域局限或场景级生成困难等问题[3] - 核心问题是如何在统一、高效的框架中整合物理知识[3] 核心方法 - 聚焦机器人操作场景，学习具身世界模型作为动力学函数，基于过去的观测和机器人动作预测下一个视觉观测[4] - 设计了四步处理流程构建含物理先验的多模态具身数据集，包括物理属性标注、视频切片、片段过滤和片段分类[5] - 基于自回归Transformer框架实现帧级动作可控的机器人视频生成，通过时间深度预测和自适应关键点动态学习整合物理知识[5][7][8] 时间深度预测 - 采用双分支协同自回归Transformer（DCT），通过RGB分支和深度分支分别预测，跨分支交互将深度分支的中间特征与RGB特征融合[7] - 损失函数为令牌的交叉熵损失，确保RGB生成保持精确几何结构[7] 自适应关键点动态学习 - 通过自监督追踪接触驱动的关键点动态，隐式编码材料属性，基于运动幅度自适应选择 top-K 活跃关键点[8] - 通过损失强制采样关键点视觉令牌的时间一致性，并引入关键点引导的注意力机制增强关键点轨迹区域的令牌学习[9] 实验验证 - 采用AgiBotWorldBeta数据集的50,000个视频片段，涵盖147项任务和72项技能[13] - 对比4种先进模型，RoboScape在LPIPS（0.1259）、PSNR（21.8533）、AbsRel（0.3600）、δ1（0.6214）、δ2（0.8307）和∆PSNR（3.3435）上均优于基线[12][18] - 消融实验显示移除时间深度学习或关键点动态学习均会导致性能下降，深度学习保障几何一致性，关键点学习对视觉保真度和动作可控性至关重要[14] 下游应用验证 - 在Robomimic Lift任务中，仅用生成数据训练的Diffusion Policy（DP）性能接近真实数据训练结果，成功率随合成数据量增加而提升[16][17] - 在LIBERO任务中，π0模型用生成数据训练后性能超过真实数据训练的基线[17] - 作为政策评估器时，与真实模拟器的Pearson相关系数达0.953，显著高于基线[19] 结论与展望 - RoboScape通过多任务联合训练框架将物理知识高效整合到视频生成中，无需级联外部物理引擎[20] - 未来计划将生成式世界模型与真实机器人结合，进一步验证在实际场景中的表现[21]

具身世界模型

RoboScape模型

具身世界模型

RoboScape模型

小米社招&校招 | 自动驾驶与机器人具身智能算法研究员 (VLA方向)

具身智能之心· 2025-07-01 12:07

职位描述 - 公司正在招聘研究员/科学家加入前沿探索团队，致力于构建下一代自动驾驶与机器人的"大脑"，重点研究具身基座模型 (Embodied Foundation Model) [1] - 该模型将深度融合视觉-语言-行动 (VLA) 能力，并具备卓越的空间感知与空间推理能力 [1] 核心职责 - 前沿算法研究与构建：设计和实现领先的具身多模态大模型，探索构建能够理解复杂三维世界并进行长时序、多步骤任务规划的世界模型 (World Model) [2] - 核心模型能力攻关：主导模型在多模态场景理解、复杂语义推理与决策、学习与适应机制等方面的突破 [3] - 技术愿景与路线图：构建可泛化、高效率的具身智能基座模型，为未来1-3年的技术演进提供核心支撑，并探索其在自动驾驶和通用机器人领域的统一应用潜力 [3] - 学术影响力与合作：与全球顶尖高校及研究机构合作，探索表征学习、因果推理、世界模型等长期议题，在顶级会议上发表高水平论文 [3] 职位要求 - 教育与研究背景：计算机科学、人工智能、机器人学、自动驾驶或相关领域的博士学位，或具备同等深度的研究经验 [4] - 核心研究经验：在多模态大模型、自动驾驶与具身智能、强化学习等领域有深入的研究和实践经验 [5] - 三维视觉与空间智能：具备扎实的3D计算机视觉、几何学和空间推理能力，熟悉NeRF, 3D Gaussian Splatting等技术 [6] - 理论与编程能力：在顶级会议上发表过高质量论文，具备跨学科视野，能够融会贯通大模型、自然语言处理、计算机视觉、强化学习与机器人学知识 [7] 加分项 - 拥有坚实的机器学习和深度学习理论基础，精通Python及主流深度学习框架 [10] - 具备世界模型研究经验、大规模预训练经验、机器人平台经验或开源社区贡献 [11] 工作地点 - 工作地点以北京为主，少量上海职位 [9] - 简历投递至指定邮箱，需备注社招/校招+姓名+岗位+自动驾驶之心推荐 [9]

小米集团(HK:01810)

多模态大模型

多模态大模型

3天搞定机械臂上的VLA完整部署：算法&项目实践

具身智能之心· 2025-07-01 12:07

具身智能与机械臂行业趋势 - 2025年政府工作报告首次将"具身智能"写入政策文件显示该领域已成为国家战略方向[1] - 机械臂作为具身智能落地的核心载体在工业医疗服务等领域应用广泛[1] 行业技术痛点 - 算法从仿真环境部署到硬件存在两大核心障碍：工程实践能力不足以及对机械臂操作与抓取方法掌握不系统[2] - 当前VLA算法在机械臂上的部署效果不佳阻碍了具身智能的实际场景应用[2] 产学研合作项目 - 深蓝学院联合华为天才少年秦通与松灵机器人推出具身智能线下实训营聚焦机械臂操作与抓取技术[3] - 课程提供真实机械臂实操机会覆盖运动规划视觉反馈模仿学习 VLA等关键技术[5] - 实训项目包括RViz模型与真机1:1映射以及机器视觉引导的自适应抓取等实战内容[5] 课程技术亮点 - 实现全栈技术闭环涵盖算法到硬件的工程化能力培养[16] - 采用松灵硬件平台支撑沉浸式项目实操每组配备1-2条机械臂[9][16] - 结合产学研资源由VINS作者秦通等顶尖学者提供技术指导[7][16] 目标受众 - 机器人与自动化专业在校学生[18] - 机械臂和具身智能领域研发工程师[18] - 工业自动化与智能制造工程师[18]

从感知能力提升到轻量化落地，具身这条路还要走很长一段时间~

具身智能之心· 2025-06-30 12:21

具身智能技术发展趋势 - 感知能力升级与多模态融合成为技术发展重点触觉感知特别是灵巧手领域的力控技术显著提升操作精细度及反馈能力多模态传感器融合技术实现视觉、听觉、触觉信息的硬件与算法深度整合 [1] - 大模型驱动认知能力突破基于多模态数据提升人形机器人感知与自主学习能力轻量化模型设计成为行业落地关键需求需低算力、跨平台的多模态模型支撑 [1] - 仿真环境与数据生态加速训练效率通过物理世界规律建模实现运动、形变、环境变化的模拟仿真 sim2real技术推动虚拟与现实环境对齐大规模仿真数据应用于真实场景是当前研究难点 [1] 行业技术资源体系 - 全栈技术社区覆盖40+开源项目与60+数据集包含强化学习、视觉语言导航、多模态大模型、机械臂策略等16个技术路线整合主流仿真平台与学习路径 [6] - 数据生态支持本体多样化双足、轮式、轮足复合等形态数据需抽象共同特征关节与执行器数据标准化是技术突破基础 [2] 产业应用与研究方向 - 国内外200+头部机构参与生态涵盖斯坦福、清华等高校及优必选、小米等企业涉及教育、医疗、物流等8大应用领域 [6][12] - 前沿技术应用场景明确包括VLM在机器人抓取规划、分层决策优化、Diffusion Policy生成等20+细分方向 [7][44] 行业知识库建设 - 研报与文献覆盖大模型、人形机器人等热点汇总30+企业研报及机器人动力学、视觉控制等专业书籍 [14][16] - 零部件供应链体系完善整合芯片、激光雷达、ToF相机等核心部件厂商技术手册与产品数据 [18][22] 人才发展与技术交流 - 提供高校实验室与公司岗位双通道汇总国内外知名研究机构方向同步头部企业招聘需求 [9][11] - 实时技术问题讨论平台涉及仿真平台选型、模仿学习方法、研报获取等实操性议题 [7][58]

仿真环境与数据生态建设

多模态融合

人形机器人

仿真环境与数据生态建设

多模态融合

人形机器人

当无人机遇到AI智能体：多领域自主空中智能和无人机智能体综述

具身智能之心· 2025-06-30 12:17

研究背景与动机 - 无人机从遥控平台发展为自主智能体系统，受AI特别是认知架构推动[6] - Agentic AI的出现标志着无人机设计根本性转变，使其具备自主性、目标导向和情境感知能力[6] - 农业、物流、环境监测等领域对无人机自主性需求日益增长，操作环境日趋动态化[6] 核心定义与架构 - Agentic UAVs定义为具有认知能力、情境适应性和目标导向行为的新型自主空中系统[11] - 核心架构包含感知层（多模态传感器）、认知层（推理与规划）、控制层（飞行执行）、通信层（交互协同）[12] - 相比传统无人机，Agentic UAVs在自主性水平（Level 4-5）、决策架构（RL-based）和系统集成方面有显著差异[9] 关键技术推动因素 - 边缘AI模块（NVIDIA Jetson等）支持实时深度学习推理[14] - 多模态传感器融合（RGB/热成像/LiDAR）实现环境联合观测[14] - 视觉-语言模型（VLMs）使无人机能理解执行自然语言指令[14] 主要应用领域精准农业 - 作物健康监测：通过NDVI/EVI指数动态调整飞行路径[17] - 精准喷洒：AI驱动目标识别优化滴液大小与路径[17] - 自主播种：地形分析动态调整轨迹适应复杂田地[17] 灾难响应 - 幸存者检测：热成像+运动跟踪生成概率热图[21] - 群体协调：V2V通信实现去中心化覆盖与冗余[21] - 野火监测：多光谱相机动态跟踪火势蔓延[21] 城市基础设施检查 - 桥梁检查：SLAM+深度学习缺陷分类生成3D语义地图[27] - 道路监测：卷积网络检测坑洼裂缝[27] - 自动报告：结构化输出符合工程标准[27] 物流配送 - 最后一公里配送：多模态感知实现GPS拒止环境导航[28] - 自适应投放：实例分割识别合适着陆点[31] - 群体协调：V2V通信优化能耗与任务分配[31] 技术挑战 - 电池寿命：机载AI推理使飞行时间降至20-45分钟[45] - 传感器集成：多模态感知增加重量与功耗[45] - 实时导航：GPS拒止环境下VIO/SLAM易受环境噪声影响[47] 未来发展方向 - VTOL平台结合旋翼机敏捷性与固定翼耐力[55] - 联邦学习实现跨异构环境模型共享[58] - 数字孪生技术支持预测性维护与场景测试[70]

人工智能（AI）

基于记忆的架构

数字孪生技术

物联网（IoT）

边缘云协同

人工智能（AI）

基于记忆的架构

数字孪生技术

物联网（IoT）

边缘云协同

WorldVLA：世界模型实现视觉-动作双向增强，抓取精度显著提升

具身智能之心· 2025-06-30 12:17

WorldVLA功能与定义 - WorldVLA是一种将视觉-语言-动作（VLA）模型与世界模型结合的自回归动作世界模型，通过集成动作与图像理解和生成实现双向增强 [3] - 模型采用注意力掩码策略解决自回归动作生成中的误差传播问题，在动作块生成任务中抓取成功率提升4%-23% [3][7] - 实验显示WorldVLA抓取成功率比独立动作模型高4%，视频生成能力优于普通世界模型，Fréchet视频距离（FVD）降低10% [7] VLA模型与行业背景 - 当前VLA模型依赖多模态大语言模型（MLLM）但缺乏对动作的深度集成分析，世界模型虽能预测未来状态但无法直接生成动作 [5] - WorldVLA通过统一tokenizer架构实现跨模态理解，图像tokenizer压缩比16，codebook大小8192，256×256图像生成256个token [6][14] - 动作tokenizer将连续动作离散化为7个token（3位置+3角度+1抓取状态），文本tokenizer词汇量65,536含8192图像token [14] 技术架构与训练策略 - 模型基于Chameleon架构初始化，混合动作模型数据（交叉熵损失）和世界模型数据（α=0.04平衡损失）进行联合训练 [11][15][20] - 动作模型输入含2帧历史图像，输出K个动作；世界模型输入当前帧和动作，输出下一帧预测 [16][17] - 注意力掩码机制使动作生成仅依赖视觉输入而非历史动作，避免误差累积 [18][19] 实验验证与性能表现 - 在LIBERO基准测试中，512×512分辨率WorldVLA平均抓取成功率81.8%，优于OpenVLA（76.5%）等离散动作模型 [27] - 消融实验显示集成世界模型使动作模型平均成功率从62.8%提升至78.1%，长序列任务提升显著（52.4% vs 23%） [29] - 世界模型预训练使50帧视频生成的PSNR从23.98提升至24.30，LPIPS从15.60降至15.44 [35] 创新贡献与应用潜力 - 首次提出统一动作与图像理解/生成的自回归框架，实现动作模型与世界模型的双向性能增强 [8] - 动作注意力掩码策略突破自回归模型在长动作序列生成中的局限性，为机器人连续操作提供新方案 [7][31] - 高分辨率输入（512×512）显著提升性能，验证视觉细节对机器人操作精度的关键影响 [26][27]

自回归动作世界模型

自回归动作世界模型