通用认知机器人

搜索文档
PhysicalAgent:迈向通用认知机器人的基础世界模型框架
具身智能之心· 2025-09-22 00:03
为解决这些问题,研究团队提出 PhysicalAgent ——一个融合迭代推理、扩散视频生成与闭环执行的机器人操控框架。其核心思路是:用基础模型(视觉语言模 型、扩散视频模型)承担感知与推理的"重活",仅保留轻量级机器人适配层负责执行,最终实现跨形态、跨任务的通用操控,同时通过迭代修正提升执行鲁棒 性。 点击下方 卡片 ,关注" 具身智能 之心 "公众号 作者丨 Artem Lykov等 编辑丨具身智能之心 本文只做学术分享,如有侵权,联系删文 >> 点击进入→ 具身智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要的。 核心定位与动机 当前机器人操控领域存在两大关键瓶颈:一是主流视觉-语言-动作(VLM)模型(如RT-1/RT-2、OpenVLA)依赖任务与平台特定微调,换机器人或环境后鲁棒 性骤降;二是基于世界模型的方法(如DreamGen)需依赖专门训练的预测模型(如Cosmos Predict),且训练数据需精心筛选机器人-场景对,通用性受限。 架构设计:泛化性的核心逻辑 该框架的核心原则是 感知与推理模块不绑定特定机器人形 ...
PhysicalAgent:迈向通用认知机器人的基础世界模型框架
具身智能之心· 2025-09-20 16:03
当前机器人操控领域存在两大关键瓶颈:一是主流视觉-语言-动作(VLM)模型(如RT-1/RT-2、OpenVLA)依赖任务与平台特定微调,换机器人或环境后鲁棒 性骤降;二是基于世界模型的方法(如DreamGen)需依赖专门训练的预测模型(如Cosmos Predict),且训练数据需精心筛选机器人-场景对,通用性受限。 为解决这些问题,有研究团队提出 PhysicalAgent ——一个融合迭代推理、扩散视频生成与闭环执行的机器人操控框架。其核心思路是:用基础模型(视觉语言 模型、扩散视频模型)承担感知与推理的"重活",仅保留轻量级机器人适配层负责执行,最终实现跨形态、跨任务的通用操控,同时通过迭代修正提升执行鲁棒 性。 点击下方 卡片 ,关注" 具身智能 之心 "公众号 作者丨 Artem Lykov等 编辑丨具身智能之心 本文只做学术分享,如有侵权,联系删文 >> 点击进入→ 具身智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要的。 出发点与动机 架构设计:泛化性的核心逻辑 该框架的核心原则是 感知与推理模块不绑定特定机器人形 ...