Diffusion Policy
搜索文档
具身智能之心技术交流群成立了!
具身智能之心· 2025-11-26 10:00
社群成立与目标 - 具身智能之心技术交流群正式成立,旨在促进相关技术领域的交流与合作 [1] - 社群主要关注方向包括视觉语言导航、遥操作、扩散策略、强化学习、多模态大模型等前沿技术领域 [1] 社群加入方式 - 感兴趣者可通过添加指定助理微信账号申请加入社群 [2] - 申请入群需按要求备注个人机构、姓名及研究方向信息以加速审核流程 [3]
从纯小白到具身算法工程师的打怪之路
具身智能之心· 2025-11-20 04:02
文章核心观点 - 文章系统性地介绍了具身智能领域的几个关键技术方向,包括VLA、VLN、强化学习与足式机器人、以及Diffusion Policy [1] - 这些技术方向代表了机器人领域当前主流且前沿的研究范式,旨在提升机器人的感知、决策和执行能力 [1][6][21] VLA(视觉语言动作)方向 - VLA机器人系统主要由视觉感知处理模块、语言指令理解模块和动作策略网络构成 [1] - 显示端到端VLA是最经典范式,将视觉语言信息压缩成联合表征后映射到动作空间,依赖不同架构、模型大小和应用场景取得不错性能 [1] - 隐式端到端VLA关注可解释性,利用video diffusion模型预测未来状态,再通过逆运动学生成动作,提高了可解释性和模型扩展潜能 [2] - 分层端到端VLA通过结合大小模型特点提升泛化性并保持执行效率,成为近期研究热点 [2] VLN(视觉语言导航)方向 - VLN机器人系统由视觉语言编码器、环境历史信息表征和动作策略三个模块构成 [5] - 采用大规模预训练视觉语言模型和利用LLM进行指令拆解是当前主流前沿范式 [6] - 环境历史信息处理分为隐式端到端和显示端到端两种方法,前者使用序列模型隐变量,后者使用拓扑图、BEV语义地图等模型进行环境建模 [6] - 策略网络学习从依赖数据增强转向从LLM蒸馏规划信息,物体导航任务要求机器人具备更强目标识别和未知环境探索能力 [6][7] 强化学习与足式机器人 - 强化学习是足式机器人的重要组成部分,涉及四足机器人基础包括运动学与动力学、多模态传感器融合 [9][10] - 双足机器人进阶重点在于平衡性与动态控制,以及PPO、SAC等强化学习算法与步态控制的结合 [10] - 高级算法包括深度强化学习与模仿学习,以及多任务训练与自适应实现行走、避障、攀爬等任务无缝切换 [10] - Sim2Real迁移与安全机制通过域随机化、RMA等策略降低仿真与现实差异,保证真实部署成功率 [10] Diffusion Policy(扩散策略) - Diffusion Policy通过直接对机器人动作建模,使动作更逼真灵活,在多个仿真环境和真机任务中相比最先进方法实现平均46.9%的性能提升,控制频率超过100Hz [21] - 扩散策略大模型RDT拥有12亿参数,提出物理可解释的统一动作空间,通过海量预训练展现强大零样本泛化能力,仅需1-5个示例即可学习新技能 [21][22] - 扩散策略应用范围正扩大至自主导航、灵巧手抓取等领域,能根据环境约束动态生成符合约束的动作轨迹 [22] - 技术体系从基础状态扩散策略不断发展,包括3D空间应用扩展、等变扩散策略、安全扩散策略等新研究方向 [23]
从世界模型到VLA再到强化,具身大小脑算法原来是这样的!
具身智能之心· 2025-10-26 04:02
具身智能技术框架 - 行业将具身智能技术框架类比为人类的大脑和小脑,大脑负责思考感知(语义理解和任务规划),小脑负责执行(高精度的运动执行)[3] - 细分领域包含仿真、VLA、Diffusion Policy、VLN、世界模型、强化学习等多个子模块[5] - VLA和世界模型目前是自动驾驶和具身智能领域的两大技术路线[5] 核心技术演进路径 - 第一阶段技术研究聚焦于抓取位姿检测,通过点云或图像预测末端执行器姿态,但策略多为单步决策,缺乏对任务上下文和动作序列的建模[7] - 第二阶段进入行为克隆阶段,机器人借助专家演示数据学习端到端映射,但暴露出泛化能力弱、误差累积等问题[7] - 第三阶段以2023年兴起的Diffusion Policy为代表,通过扩散模型生成整个动作轨迹,提升策略稳定性与泛化能力;2024年进入VLA模型阶段,融合视觉、语言与动作生成,支持零样本或小样本快速泛化[8] - 第四阶段自2025年以来,行业探索VLA与强化学习、世界模型、触觉感知等模块的融合,以弥补现有模型在反馈、预测和多模态感知方面的局限[9] 当前技术热点与方向 - VLA目前主要研究热点为端到端和分层两种方案,并分别基于大模型和Diffusion技术拓展,VLA+RL方案正成为学者探索方向[5] - Diffusion Policy作为动作模块,负责学习具体动作和执行,主要方向包括状态扩散、动作空间扩散、三维空间扩散等[6] - 仿真技术关注sim2real和real2sim2real,以解决真机泛化差的问题,该方案已获多家具身公司认可[6] - VLN更关注目标导航,与移动操作相关联,map-free方案利于任务泛化[6] - VLA与强化学习结合提升机器人在长时任务中的试错与自我改进能力;与世界模型结合引入环境动态预测,使机器人具备“想象未来”的能力;与触觉信息结合拓展多模态融合的感知边界[10] 行业应用与市场前景 - 技术发展推动人形机器人、机械臂、四足机器人等产品落地,服务于工业、家居、餐饮、医疗康复等领域[10] - 相关产品和融资络绎不绝,岗位呈现爆发式增长,吸引大量人员转入具身智能领域[10] - 随着产业界重视,行业从“论文”走向“部署”,对工程与系统能力需求激增[14]
我们正在找具身领域的合伙人......
具身智能之心· 2025-10-08 02:49
文章核心观点 - 公司面向全球具身智能领域从业者发出合作邀请,旨在通过多方协作推动行业进步 [1] - 合作旨在响应市场对公司在方案、数据采集、技术升级及企业培训等方面赋能的诉求 [1] 合作方向 - 技术方向涵盖VLA、VLN、Diffusion Policy、强化学习、VLA+RL、遥操作、动捕、sim2real、多模态大模型、仿真、运动控制、端到端、3D感知等前沿领域 [3] - 合作岗位涉及具身课程开发、方案研发、硬件研发以及面向B端(企业、高校、研究院所)和C端(学生、求职人群)的培训合作 [4] 合作模式与资源 - 公司将提供高额酬金与丰富的行业资源作为合作回报 [2] - 具体合作领域包括技术服务、培训、课程开发与科研辅导等 [1]
具身的这几个方向,组成了所谓的大小脑算法
具身智能之心· 2025-09-19 00:03
具身智能技术框架 - 具身智能领域围绕大脑和小脑两大模块展开 大脑负责思考感知和任务规划 小脑负责高精度运动执行[3] - 细分技术包括仿真 VLA Diffusion Policy VLN 世界模型和强化学习等多个子模块[5] - VLA和世界模型在自动驾驶和具身领域同时发力 代表两个不同技术路线[5] 技术演进阶段 - 第一阶段聚焦抓取位姿检测 通过点云或图像预测末端执行器姿态 但缺乏任务上下文和动作序列建模[7] - 第二阶段进入行为克隆阶段 通过专家演示数据学习端到端映射 但存在泛化能力弱和误差累积问题[7] - 第三阶段引入Diffusion Policy方法 通过扩散模型生成动作轨迹 提升策略稳定性与泛化能力[8] - 第四阶段探索VLA模型与强化学习 世界模型 触觉感知等模块融合 弥补现有局限[9] 关键技术发展 - VLA研究热点为端到端和分层两种方案 分别基于大模型和diffusion技术拓展 VLA+RL方案成为新探索方向[5] - Diffusion Policy负责学习具体动作和执行 包括状态扩散 动作空间扩散和三维空间扩散等多个方向[6] - 仿真技术发展sim2real和real2sim2real 解决真机泛化差问题 获多家具身公司认可[6] - VLN更关注目标导航 与移动操作相关联 map-free方案利于任务泛化[6] 应用与落地 - 技术发展推动人形机器人 机械臂 四足机器人等产品落地 服务于工业 家居 餐饮 医疗康复等领域[10] - 产业界重视推动具身智能从论文走向部署 对工程能力提出更高要求[14] - 需掌握在Mujoco IsaacGym Pybullet等平台完成策略训练与仿真测试的能力[14] - 需实现强化学习在VLA后训练上的应用 支持机器人反馈微调[14] 人才需求与培养 - 岗位呈现爆发式增长 导致许多专业人士转入具身智能领域[10] - 需要掌握具身大脑+小脑算法全体系知识点 熟悉模型优化方法[25] - 需掌握仿真 DP VLA VLA+RL模型的基本原理和实际应用[25] - 需熟悉世界模型在具身智能领域中的应用 掌握基于触觉信息的VLA主流方案[25]
具身智能之心技术交流群成立了!
具身智能之心· 2025-08-28 08:36
具身智能技术社群成立 - 行业成立具身智能之心技术交流群 重点关注视觉语言导航 视觉语言动作 遥操作 扩散策略 强化学习 仿真到现实迁移 多模态大模型 运动控制 目标导航 建图定位等技术方向[1] - 行业社群面向机构及学校研究人员开放 需通过指定联系方式备注机构名称 个人姓名及研究方向完成入群申请[2][3]
具身智能之心B端和C端培训老师招募来啦~
具身智能之心· 2025-08-28 01:20
业务模式 - 公司开展B端和C端培训业务 B端主要面向企业和高校及研究院所 C端面向学生和求职人群[1][3] - 业务内容包括制定课程大纲和制作课程材料[3] 技术方向 - 培训内容涵盖VLA VLN 遥操作 Diffusion Policy 强化学习 VLA+RL sim2real 多模态大模型 仿真 运动控制 目标导航等前沿技术领域[2] 人才要求 - 要求博士及以上学历(包含在读)[3] - 需具备2篇A会或一区以上期刊/会议发表或2年及以上工业界经验[3] 合作方式 - 通过微信平台进行业务咨询(微信号:oooops-life)[4] - 提供高于行业水平的酬金待遇[1]
从方法范式和应用场景上看强化与VLA/Flow Matching/机器人控制算法
具身智能之心· 2025-08-19 01:54
方法范式 - 传统强化学习(RL)和模仿学习结合Sim2Real技术,方法包括DQN/PPO/SAC/D4PG/GRPO等,主流仿真环境有Mujoco、Gazebo、Bullet、IssacSim/IssacGym [5] - Diffusion Policy和VLA模型与传统RL的根本区别在于用训练数据分布描述任务目标,而非依赖reward function,适合复杂任务如叠衣服、收拾桌面等 [4] - OpenVLA模型整合多模态输入,基于7B参数的Llama 2语言模型,结合DINOv2和SigLIP视觉编码器 [7] - RDT(Robotic Decision Transformer)采用Goal-Conditioned设计,在AGIBot百万真机数据集上训练 [9] - pi-0引入动作抽象层,将不同机器人关节空间映射到统一潜空间,缓解本体差异问题 [13] - 流匹配(Flow Matching)建模从标准正态分布到复杂目标数据分布的映射,用于生成机器人动作序列 [15][17][18] 技术实现 - 基础运动控制(如人形/四足机器人)以RL+sim2real为主,模型较小,算力消耗低,但全场景丝滑动作仍有差距 [22] - 复杂/长程操作任务采用预训练ViT编码器+LLM,使用diffusion/流匹配/transformer decoder输出动作,通过预训练+微调实现跨机器人泛化 [23] - 宇树官方demo基于IssacGym和PPO算法 [24] - 北京亦庄人形机器人中心开源强化学习运动控制,基于IssacLab融合人体运动数据与AMP奖励,实现天工Ultra机器人21公里奔跑 [24] - pi0预训练阶段利用10,000小时多机器人数据,微调阶段需1-5小时到上百小时任务数据,模型规格为33亿参数 [25] - Google Gemini Robotics采用云端VLA骨干(160毫秒延迟)和本地动作解码器的快慢架构 [25][26] 数据集 - Open X-Embodiment数据集包含1M+ trajectories、500+ skills、22种机器人类型,统一为RLDS格式 [21] - AGIBot数据集为智元机器人开源的百万真机数据集 [9][24] - EgoDex数据集包含829小时人类操作视频,338K轨迹/194任务 [24] 应用场景 - 基础运动控制依赖仿真器、机器人模型和domain randomization设计,reward shaping和sim2real技术 [35] - 复杂长程任务依赖VLA和Diffusion/FM,用训练数据分布描述任务目标,语言索引任务分布 [35] - 任务过程和目标定义方面,强化学习通过reward函数,VLA用数据分布描述,未来可能通过多模态输入预测任务目标 [35] - 底层控制任务适合RL+sim2real,上层复杂任务适合VLA+数据,如叠衣服、收拾桌面等需要理解人类意图的任务 [40]
具身智能之心技术交流群成立了!
具身智能之心· 2025-08-11 06:01
具身智能技术交流群 - 社群聚焦研究方向包括视觉语言动作(VLA)、视觉语言导航(VLN)、遥操作、扩散策略(Diffusion Policy)、强化学习(RL)、VLA与强化学习结合(VLA+RL)、仿真到现实迁移(sim2real)、多模态大模型、运动控制、目标导航、建图定位等前沿技术领域 [1] - 入群需通过微信添加助理账号AIDriver005并提交机构/学校名称、个人姓名及研究方向信息以加速审核流程 [2][3]
具身智能之心技术交流群成立了!
具身智能之心· 2025-08-07 02:38
具身智能技术交流群成立 - 交流群聚焦VLA、VLN、遥操作、Diffusion Policy、强化学习、VLA+RL、sim2real、多模态大模型、仿真、运动控制、目标导航、建图定位、导航等技术方向 [1] - 社群通过微信小助理AIDriver005邀请加入 [2] - 入群需备注机构/学校+姓名+研究方向以加速审核 [3]