具身智能之心

搜索文档
CMU最新!跨实体世界模型助力小样本机器人学习
具身智能之心· 2025-08-12 00:03
研究方法 - 通过模仿学习训练视觉运动策略的有效性已被证实 但性能依赖大量现实世界数据收集[2] - 研究目标是利用现成或低成本数据(如公开机器人数据集和人类摆弄物体数据集)减少数据收集工作量[2] - 采用光流作为具身无关的动作表示 在跨多个具身数据集上预训练世界模型 再用少量目标具身数据进行微调[3] - 提出潜在策略引导(LPS)方法 通过在世界模型潜在空间中搜索更优动作序列改进策略输出[3] 实验成果 - 结合预训练世界模型后 仅用30次示范数据可使策略性能相对提升超过50%[3][9] - 使用50次示范数据时策略性能相对提升超过20%[3][9] - 预训练数据源包括Open X-embodiment数据集(两千个片段)和低成本人类玩耍数据集[3] 技术优势 - 光流能够打破不同机器人实体间的差异[12] - 世界模型比策略模型更适合进行跨实体预训练和新实体微调[12] - 潜在策略引导方法有效利用世界模型提升策略模型性能[12] 行业痛点 - 机器人学习成本高昂 单个任务常需数小时数据采集[11] - 不同机器人实体差异给模型预训练带来挑战[11] - 现有方法可有效利用已有数据减少新数据采集需求[11]
探究具身机器人有限泛化能力的本质原因!增强策略依然有效
具身智能之心· 2025-08-12 00:03
研究背景与核心问题 - 大规模机器人数据集如Open X-Embodiment(OXE)包含超过一百万段轨迹,但模型在训练数据分布外场景泛化能力有限[2] - 泛化限制主要源于捷径学习(shortcut learning),即模型依赖任务无关特征(如视角、背景)而非真正因果关系[2] - 在SIMPLER环境中,多个通用机器人策略执行"拿起可乐罐"而非指令"将勺子放在毛巾上",显示模型学习虚假相关性而非语言指令与目标关系[2] 数据集多样性和碎片化分析 - OXE子数据集的视觉和文本多样性(对数尺度)显著低于视觉/多模态数据集,最新数据集DROID多样性仍低几个数量级[4] - OXE子数据集通过t-SNE可视化显示明显分离和碎片化,重叠极少,某些子数据集有多个分离簇[8] - 子数据集内机器人技能预定义且限制在狭窄任务范围,轨迹间场景和视角变化有限[10] - 多样性度量显示子数据集内部多样性不足且差异增大时,数据集表现为孤立点而非连贯整体[12] - OXE总任务数182,158,但子数据集间重叠任务仅165,重叠子数据集对占比3.70%[14] - 不同子数据集文本特征比视觉/多模态数据集更接近,源于共享机器人技能和文本指令一致性[12] 数据集特性与捷径学习的理论联系 - 捷径学习发生在模型依赖无关因素时,当任务相关因素和无关因素在训练分布中不独立时形成虚假相关性[15] - 子数据集内独立性和均匀混合假设下,归一化互信息量化任务无关因素与标签相关性[15] - 支持集完全不相交子数据集的归一化互信息与子数据集内总多样性成反比[16] - 任务无关特征(如视觉)的子数据集间距离大于任务相关特征(如文本)时,模型优先学习高方差特征形成捷径[16] 实验验证 - LIBERO环境中提高子数据集内多样性或减少子数据集间差异可减少所有模型捷径依赖,从零成功率转变为非零成功率[17][18] - 实验变量包括视角多样性(子数据集内视角范围半径)、视角差异性(视角范围中心距离)、目标位置多样性和差异性(数量1-5和空间布局)[20] - 扩散策略中增加目标位置多样性无法缓解捷径学习,突显语言指令重要性[21] - 增加视角多样性(从2到10)反而诱导因素相关性加剧碎片化,使MiniVLA的OOD成功率降至零[23][24] - 真实世界实验使用AgileX PIPER机器人臂,添加第三个"桥梁"目标数据完全消除捷径行为,显著提高OOD成功率[26][28] - 视角增强(如ZeroNVS生成新视角)和目标增强(场景间交换目标)策略有效降低捷径学习程度,提高OOD成功率[30][32][34] - 未增强π0模型OOD设置中完全无法遵循指令,增强版本语言遵循和目标到达能力显著改进,SIMPLER环境中捷径度从1.0降至0.68,真实世界从0.8降至0.25[34][35]
机器人上下文协议首次开源:阿里达摩院一口气放出具身智能「三大件」
具身智能之心· 2025-08-12 00:03
阿里达摩院具身智能开源项目 - 阿里达摩院在世界机器人大会上宣布开源三款具身智能相关模型和协议:视觉-语言-动作模型RynnVLA-001-7B、世界理解模型RynnEC、机器人上下文协议RynnRCP [1] - RynnRCP协议旨在解决具身智能开发流程碎片化问题,推动数据、模型和机器人本体的兼容适配,已支持Pi0、GR00T N1.5等多款热门模型及SO-100、SO-101等机械臂 [2] - RynnRCP包含两大模块:RCP框架(建立机器人本体与传感器连接)和RobotMotion(实现大模型与机器人控制的桥梁)[4][5] 开源模型技术细节 - RynnVLA-001是基于视频生成和人体轨迹预训练的7B参数模型,可从第一人称视频学习人类操作技能并迁移到机械臂控制 [7] - RynnEC是世界理解模型,能从11个维度解析场景物体,支持仅通过视频序列建立空间感知 [7] - 达摩院上月还开源了WorldVLA模型,首次实现世界模型与动作模型融合 [8] 具身智能产业布局 - 达摩院聚焦具身智能系统和模型研发,与产业共建基础设施包括硬件适配、数据采集和技术社区 [7] - 公司正在拓展机器人产业空间,加速场景落地 [7] 开发者生态建设 - 具身智能之心知识星球是国内首个具身智能全栈学习社区,包含30+学习路线、40+开源项目、60+数据集 [11] - 社群覆盖60+技术交流群,涉及大模型、机器人仿真、产品开发等多个方向 [12]
具身智能之心技术交流群成立了!
具身智能之心· 2025-08-11 06:01
具身智能技术交流群 - 社群聚焦研究方向包括视觉语言动作(VLA)、视觉语言导航(VLN)、遥操作、扩散策略(Diffusion Policy)、强化学习(RL)、VLA与强化学习结合(VLA+RL)、仿真到现实迁移(sim2real)、多模态大模型、运动控制、目标导航、建图定位等前沿技术领域 [1] - 入群需通过微信添加助理账号AIDriver005并提交机构/学校名称、个人姓名及研究方向信息以加速审核流程 [2][3]
找几个做数采的大佬一起搞点事情......
具身智能之心· 2025-08-11 06:01
具身智能之心准备在国内外招募3位做数采的大佬,主要研究方向:遥操作、AR、全身动捕等方向。 相关研究方向至少1年,具身公司从业人员、博士及以上学历优先(包含在读博士)。 联系我们 更多待遇和工作内容咨询,欢迎添加负责人微信oooops-life了解。 工作内容 和我们一起承接具身数采相关的项目开发、课程开发等; 岗位要求 ...
国内首个具身智能全栈学习社区来啦!
具身智能之心· 2025-08-11 06:01
文章核心观点 - 具身智能之心知识星球是国内首个具身全栈技术社区 提供产业、学术、求职、问答交流等多领域闭环服务 通过技术路线梳理、行业资源整合和专家答疑解决实际工程问题[3][15][16] - 社区已汇总超40个开源项目、60+数据集、30+技术路线及30家头部公司研报 覆盖感知、导航、控制、大模型部署等全栈技术栈 显著缩短学习与研发周期[16][30][36] - 成员来自斯坦福、清华、智元机器人、优必选等全球顶尖高校与企业 通过内推机制、岗位对接和行业直播促进人才与产业直接联动[10][16][77] 技术资源体系 - 汇总近40个开源项目 涵盖机器人仿真、抓取、控制、交互及感知领域[30] - 整合60+具身智能数据集 包括触觉感知、导航、问答、大模型及机械臂抓取等多模态数据[36] - 梳理30+技术学习路线 含强化学习全栈、VLA/VA、Diffusion Policy、多传感器融合等方向[16][40][58] - 提供仿真平台汇总 覆盖通用机器人与真实场景仿真工具[38] 行业生态建设 - 汇聚国内外30家具身智能公司 涉及教育、工业、医疗、物流等领域[21] - 汇总高校实验室资源 为申博、读研及博后提供参考[18][20] - 分析零部件供应链 包括芯片、激光雷达、相机、IMU等品牌厂商[28] - 跟踪行业研报与大模型应用 及时更新工业落地进展[23] 社区服务功能 - 建立企业内推机制 直接对接智元、有鹿机器人、优必选等公司岗位[10][16] - 定期举办圆桌论坛与直播 由产业界嘉宾分享本体、数据及算法前沿[4][77] - 提供技术问答支持 解决数据采集、模型部署、sim2real等工程问题[1][3][67] - 面向小白与进阶者分别设计入门路线与产业级项目方案[11][13] 典型应用场景 - 视觉语言导航(VLN)在自动驾驶与机器人规划中的落地应用[48] - VLA+RL在机器人抓取与任务规划中的融合方案[42] - 多模态大模型理解与生成技术 支持Image/Video/Audio/3D与文本交互[52][54] - 机械臂抓取技术栈 涵盖位姿估计、策略学习及任务数据表示[70]
Genie Envisioner:面向机器人操作的统一世界基础平台
具身智能之心· 2025-08-11 00:14
核心观点 - Genie Envisioner是一个面向机器人操作的统一世界基础平台,通过单一视频生成框架实现策略学习、评估与仿真的深度融合 [3] - 平台核心组件包括GE-Base世界基础模型、GE-Act动作模型和GE-Sim模拟器,共同构成指令驱动的通用具身智能系统解决方案 [3][27] - 平台集成EWMBench标准化评测套件,系统评估视觉保真度、物理一致性及指令-动作对齐度等关键指标 [3][23] 平台架构 - GE-Base是基于指令调控的大规模视频扩散模型,在结构化潜空间中捕捉机器人交互的空间、时间与语义动态特征 [3][5] - GE-Act通过1.6亿参数的自回归动作解码器实现跨机器人形态的精准策略推理与泛化能力 [15] - GE-Sim作为动作条件神经模拟器,为闭环策略开发提供高保真度环境推演 [21] 技术特性 - GE-Base训练数据包含100万条指令对齐的视频序列和多视角同步采集数据 [11] - GE-Act支持毫秒级实时响应(<10ms延迟)和跨场景通用控制接口 [15] - GE-Sim采用分层动作条件化机制,实现帧率≥30fps的动作条件化视频生成 [25] 评估体系 - EWMBench提供三大核心评测维度:视觉场景一致性、运动正确性、语义对齐和多样性 [23] - 评估指标包括BLEU 0.3255、CLIP 90.79、DYN 0.7836等量化数据 [26] - 支持从视觉真实性、语义对齐性和策略一致性等多维度严谨评估 [27] 应用表现 - 平台在布料折叠、装箱等复杂任务中展现卓越性能 [27] - GE-Act通过最小化适配即可迁移至新型机器人平台 [27] - 大量真实世界评估证实了各组件优越性 [27]
国内首个具身大脑+小脑算法实战全栈教程
具身智能之心· 2025-08-11 00:14
具身智能概述 - 具身智能强调智能体与物理环境的交互与适应 目标是让智能体具备感知环境 理解任务 执行动作并反馈学习的能力 [1] - 具身智能的核心模块分为大脑(语义理解与任务规划)和小脑(高精度运动执行) 类比人类神经系统结构 [1] 产业发展动态 - 近2年具身智能领域涌现多家明星创业公司 包括星海图 银河通用 逐际动力等 推动本体与大小脑技术进步 [3] - 国内科技巨头加速布局:华为2024年底启动"全球具身智能产业创新中心" 与乐聚机器人 大族机器人合作攻关关键技术 京东2025年起连续投资智元机器人 千寻智能等企业强化物流与家庭服务场景 [5] - 国际竞争格局:Tesla/Figure AI聚焦工业与物流机器人应用 美国资本支持Wayve Apptronik等公司发展自动驾驶与仓储机器人 国内外技术路线差异明显 国内侧重产业链整合 国外专注基础模型与类人机器人原型研发 [5] 技术演进路径 - **第一阶段**:聚焦抓取位姿检测(Grasp Pose Detection) 通过点云/图像预测执行器姿态 但缺乏任务上下文建模能力 [6] - **第二阶段**:行为克隆(Behavior Cloning)技术兴起 通过专家数据实现端到端映射 但存在泛化能力弱 误差累积等缺陷 [6] - **第三阶段**:2023年扩散策略(Diffusion Policy)突破序列建模瓶颈 2024年Vision-Language-Action(VLA)模型实现多模态协同 支持零样本泛化 代表项目包括OpenVLA RT-2 PI0等 [6][7] - **第四阶段**:2025年技术融合加速 VLA+强化学习提升长时任务能力 VLA+世界模型实现环境动态预测 VLA+触觉感知拓展多模态融合边界 [8] 商业化应用 - 技术迭代推动产品落地 主要形态包括人形机器人 机械臂 四足机器人 覆盖工业 家居 餐饮 医疗康复等场景 [9] - 行业人才需求爆发 但存在知识体系庞杂 学习门槛高的问题 市场出现系统化培训需求 [9] 工程化挑战 - 产业界对工程能力要求提升 需解决Mujoco/IsaacGym等平台的策略训练与仿真测试问题 [12] - 关键技术部署需求包括Diffusion Policy/VLA模型训练 强化学习反馈微调 世界建模与物理执行一体化架构等 [12] 人才能力要求 - 从业者需掌握Python/Pytorch基础 具备3090ti及以上算力设备 目标人群覆盖算法工程师 研究人员及转行专业人士 [18] - 技能培养重点包括仿真系统应用 触觉信息融合方案 世界模型实践等 目标达到1-2年经验水平 [18]
聊聊DreamVLA:让机器人先看后想再动
具身智能之心· 2025-08-11 00:14
DreamVLA模型概述 - 提出一种新型视觉-语言-动作(VLA)模型DreamVLA 通过预测环境动态、空间和语义信息提升机器人动作决策精度 [1] - 采用"感知-预测-动作"循环框架 将动作规划视为逆动力学问题 通过预测未来环境状态推导动作 [6][7] - 在CALVIN ABC-D基准测试中平均任务完成长度达4.44 模拟环境性能比前代方法高3.5% 现实世界任务成功率76.7% [25] 技术架构 输入处理 - 多模态输入编码:语言指令(CLIP ViT-B/32文本编码器)、视觉图像(MAE预训练ViT-B模型处理双路摄像头)、机器人状态(可训练编码器) [10][14] - 采用perceiver resampler压缩视觉特征 将196个局部特征向量和全局[CLS] token压缩至可管理规模 [14] 世界知识预测 - 动态区域预测:使用CoTracker光流跟踪算法 通过速度阈值筛选生成二值化动态区域掩码 聚焦移动物体 [12][15] - 深度预测:有深度传感器时直接监督训练 无传感器时采用DepthAnything自监督 输出尺度归一化深度图 [13][16] - 语义预测:并行使用DINOv2(语义向量)和SAM(分割掩码) 通过轻量级ViT解码器输出语义特征 [18][22] 动作生成 - 采用扩散Transformer(DiT-B)作为动作解码器 从高斯噪声逐步生成7维动作向量(6维空间位移+1维抓手状态) [23] - 引入块状结构化注意力机制 结合因果/非因果注意力确保多步动作连贯性 [19] - 使用查询token引导未来世界知识预测 与输入序列拼接后生成世界嵌入 [20] 性能验证 - 消融实验显示动态区域预测贡献最大 深度/语义预测结合动态区域可进一步提升性能 [31] - 结构化注意力机制比普通因果注意力更稳定 分开查询优于共享查询 [31] - 使用DROID数据集(7.6万条轨迹)预训练 仅需100个任务特定演示微调即可展现强泛化能力 [25] 应用前景 - 框架兼容现有VLA模型 特别适合助手机器人和导航场景 [27] - 动态区域掩码能有效抑制背景干扰 深度地图辅助避障 语义特征提升物体交互精度 [17][22]
如何做到的?20分钟机器人真机数据,即可跨本体泛化双臂任务
具身智能之心· 2025-08-11 00:14
点击下方 卡片 ,关注" 具身智能 之心 "公众号 >>直播和内容获取转到 → 具身智能之心知识星球 点击按钮预约直播 作为视频大模型Vidu在具身智能领域延伸的重大突破,Vidar是全球首个基于通用视频大模型实现视频理解能力向物理决策系统性迁移的多视角具身基座模型。该模 型创新性地构建了支持机器人双臂协同任务的多视角视频预测框架,在保持SOTA性能的同时,展现出显著的少样本学习优势。仅用 20分钟 机器人真机数据,即可 快速泛化到新的机器人本体, 所需数据量约为行业领先的RDT的八十分之一,π0.5的一千两百分之一 ,大幅降低了在机器人上大规模泛化的数据门槛。微调后的模 型可完成多视角双臂任务,做到"说什么指令,做什么事情"。 论文链接: https://arxiv.org/abs/2507.12898、https://arxiv.org/abs/2507.12768 直播简介 清华朱军团队提出新范式应对具身智能挑战。针对VLA模型面临 的动作数据稀缺与本体不统一难题,该团队将任务解构为"预测 +执行":利用视觉生成模型(如Vidar)从海量互联网视频中学 习目标预测,再通过任务无关的逆动力学模型(如Any ...