通用认知机器人 - 财报，业绩电话会，研报，新闻

通用认知机器人

搜索文档

具身智能之心· 2025-09-22 00:03

核心观点 - 研究团队提出PhysicalAgent框架，旨在解决机器人操控领域的两大瓶颈：主流视觉-语言-动作模型依赖任务与平台特定微调导致跨平台鲁棒性差，以及基于世界模型的方法通用性受限 [2] - 该框架的核心思路是使用基础模型承担感知与推理的重任，仅保留轻量级机器人适配层负责执行，以实现跨形态、跨任务的通用操控，并通过迭代修正提升执行鲁棒性 [2] 架构设计：泛化性的核心逻辑 - 框架设计原则是感知与推理模块不绑定特定机器人形态，仅需为不同机器人训练轻量级骨骼检测模型，此设计计算开销小且数据需求低 [3] - 视频生成模型具有天然优势，因其预训练了海量多模态数据，隐含对物理过程的理解，且支持API调用无需本地训练即可快速集成 [5] - 视频生成模型能通过文本指令生成执行过程的视觉想象，与人类思考动作的方式一致，无需了解机器人内部结构 [5] - 同一感知-推理流程能为三种不同形态的机器人生成不同操控任务的视频，无需针对特定机器人重新训练，证明了架构的跨形态适配能力 [5] 视觉语言模型的作用 - 视觉语言模型作为框架的认知核心，通过多次调用实现指令-环境-执行的接地，而非单次规划 [6] - 其具体作用分为四步：接收指令与场景图像后分解高level任务为原子子任务；为每个子任务生成带约束的文本提示；每次执行后对比图像判断子任务完成情况并输出决策；框架不绑定特定视觉语言模型，具有模型无关性 [10] 扩散基世界模型：动作生成的新范式 - 核心创新是将动作生成为条件视频合成，而非直接学习控制策略 [6] - 使用现成的图像-视频基础模型，输入机器人当前相机帧与文本指令，生成物理合理的短动作视频 [10] - 对比现有方法，该框架直接使用通用图像-视频模型，无需为特定机器人-场景对训练模型，大幅降低泛化门槛 [10] - 具有三大优势：降低新机器人部署成本；可快速迭代替换更优模型；生成视频可被人类检查以提升安全性 [10] 机器人适配层：从视频到电机指令的落地 - 生成的动作视频需转化为机器人能执行的电机指令，此部分是框架中唯一需机器人特定适配的部分 [6] - 流程包括用微调后的模型从合成视频每帧中提取机器人关节关键点，形成40维特征向量/帧；再用多输出回归器将特征映射为低level电机指令 [11] - 每个新机器人仅需约1000个样本，30分钟即可收集完成训练数据 [11] 实验验证：效果与泛化性 - 实验分为两类，分别验证跨形态/感知模态的泛化性与迭代执行的鲁棒性 [8] - 在形态与感知模态研究中，框架的成功率显著优于基线，验证了扩散视频生成思路的有效性；平台对性能无显著影响，说明框架跨形态泛化能力稳定 [14] - 在物理机器人的迭代执行实验中，双臂UR3和Unitree G1人形机器人的最终成功率均达到80%，首次尝试成功率分别为30%和20%，成功所需平均迭代次数分别为2.25次和2.75次 [13][16] - 迭代修正能有效弥补首次执行的不足，前3次迭代后未完成任务比例骤降，是提升鲁棒性的核心 [16]

PhysicalAgent：迈向通用认知机器人的基础世界模型框架

具身智能之心· 2025-09-20 16:03

文章核心观点 - 研究团队提出PhysicalAgent框架，旨在解决机器人操控领域的两大瓶颈：视觉-语言-动作模型对任务与平台特定微调的依赖，以及基于世界模型的方法在通用性上的局限 [2] - 该框架的核心思路是利用基础模型承担感知与推理任务，仅保留轻量级机器人适配层负责执行，从而实现跨形态、跨任务的通用操控，并通过迭代修正提升执行鲁棒性 [2] - 框架通过将动作生成重构为条件视频合成，并利用现成的图像-视频基础模型，实现了无需为特定机器人-场景对训练模型，大幅降低了泛化门槛 [6] 出发点与动机 - 当前机器人操控领域存在关键瓶颈，主流视觉-语言-动作模型依赖任务与平台特定微调，更换机器人或环境后鲁棒性显著下降 [2] - 基于世界模型的方法需依赖专门训练的预测模型，且训练数据需精心筛选机器人-场景对，导致通用性受限 [2] 架构设计 - 架构设计的核心原则是感知与推理模块不绑定特定机器人形态，仅需为不同机器人训练轻量级骨骼检测模型，该设计计算开销小、数据需求低 [4] - 视频生成模型具有天然优势，因其预训练了海量多模态数据，已隐含对物理过程、物体交互的理解，且支持API调用，无需本地训练即可快速集成 [4] - 该架构实现了跨形态泛化，同一感知-推理流程能为三种不同形态的机器人生成不同操控任务的视频，无需针对特定机器人重新训练 [4] 视觉语言模型与扩散基世界模型 - 视觉语言模型作为框架的认知核心，通过多次调用实现指令-环境-执行的 grounding，其作用包括任务分解、场景上下文描述、执行监控与修正，并具有模型无关性 [6] - 框架的核心创新是将动作生成重构为条件视频合成，使用现成的图像-视频基础模型，输入机器人当前相机帧与文本指令，生成物理合理的短动作视频 [6] - 与现有方法相比，该框架直接使用通用图像-视频模型，无需为特定机器人-场景对训练模型，具备降低部署成本、支持快速迭代和提供可解释性三大优势 [6] 机器人适配层 - 生成的动作视频需转化为机器人能执行的电机指令，此步骤是框架中唯一需机器人特定适配的部分 [6] - 适配流程包括使用微调后的YOLO11-Pose模型从合成视频的每帧中提取机器人关节关键点，形成40维特征向量/帧，再通过多输出回归器预测低层级电机指令 [11] - 每个新机器人的适配层训练仅需约1000个样本，约30分钟即可收集完成，并支持第三人称与第一视角相机，兼容不同机器人的感知配置 [11] 实验验证：效果与泛化性 - 实验一验证跨形态/感知模态的泛化性，ANOVA分析显示该框架的成功率显著优于基线（F(4,60)=5.04，p=0.0014），且平台对性能无显著影响（F(2,36)=2.01，p=0.1485），证明了其跨形态泛化能力稳定 [12] - 实验二验证物理机器人的迭代执行鲁棒性，两个物理平台的最终成功率均达到80%，通过迭代修正（UR3平均2.25次，G1平均2.75次）有效弥补首次执行的不足，是提升鲁棒性的核心 [12][13]