Workflow
WidowX机械臂
icon
搜索文档
穆尧团队最新!离散扩散引入VLA,支持精确动作建模和一致性训练
具身智能之心· 2025-09-02 00:03
核心观点 - 提出一种名为“离散扩散视觉-语言-动作模型”的新方法,首次将离散扩散技术引入VLA模型的动作解码部分,旨在解决现有自回归模型和连续扩散模型的固有缺陷 [1] - 该模型采用单一Transformer架构统一处理视觉、语言和动作三种模态,无需额外训练扩散模块,实现了训练流程的简化与性能的提升 [1][6] - 在多项机器人任务实验中展现出显著优势,成功率全面超越传统自回归与连续扩散基准模型,证明了其在处理复杂指令和场景变化方面的有效性与鲁棒性 [2][12] 技术背景与现有挑战 - 当前视觉-语言-动作模型主要面临两种范式的挑战:自回归方法存在无法并行解码和长序列生成延迟高的“自回归瓶颈”;连续扩散方法则需要独立的扩散训练流程,导致动作生成模块与视觉语言主干网络割裂,架构复杂 [4][6] - 现有方案如OpenVLA、π₀-FAST属于自回归方法,而π₀、SmolVLA则属于连续扩散方法 [4] 模型架构与创新点 - 核心创新在于首次为VLA模型引入离散扩散动作头,并在单一Transformer中统一动作生成与视觉-语言处理 [7] - 架构基于OpenVLA的Prismatic-7B VLM主干网络构建,输入编码层统一处理多视角RGB图像、标记化指令和离散化后的动作块token,通过统一的Transformer层进行编码,输出层仅对动作token进行预测 [11][13] - 提出了“先易后难”的自适应解码策略,结合迭代重掩码技术,支持动作token的并行解码和误差校正 [10][12] 训练与推理流程 - 训练流程通过模拟离散扩散加噪进行,采用随机掩码动作token并计算交叉熵损失的方式,其训练目标与VLM的掩码语言建模完全兼容,可直接复用预训练管线 [11][14] - 推理流程采用迭代去噪方式,默认进行12轮迭代,通过自适应选择保留高置信度token和二次重掩码校验来生成最终动作序列,函数评估次数相比自回归模型减少4.7倍 [15][18] 实验结果与性能分析 - 在LIBERO任务的Franka Panda机械臂测试中,平均成功率高达96.3%,在Object、Spatial、Goal、Long四个套件上分别达到98.6%、97.2%、97.4%和92.0%,均优于对比模型 [21][22] - 在Google机器人的SimplerEnv测试中,视觉匹配率达到71.2%,整体成功率为64.1%,表现出对场景变化的良好鲁棒性 [23][24] - 在WidowX机器人的真实-模拟迁移场景测试中,整体成功率达到49.3%,在“把勺子放在毛巾上”等具体任务中抓取成功率为70.8%,显著领先于其他模型 [25][26] 消融实验验证 - 对解码策略的消融实验表明,采用“最大置信度”的自适应策略成功率最高,达97.4%,优于并行解码和随机顺序等策略 [27][29] - 对选择温度的消融实验表明,采用衰减温度调度(Temp=1-t)的方案成功率达97.4%,优于硬采样和固定温度方案,验证了温度调度与自适应解码的协同作用 [28][29]
保姆级分享!ALOHA:低成本双臂机器人结合模仿学习经典工作
具身智能之心· 2025-06-27 08:36
ALOHA系统概述 - 一种低成本开源的双臂遥控操作系统,全称为A Low-cost Open-source Hardware System for Bimanual Teleoperation [4][5] - 成本控制在20k美元以内,使用现成机械臂和3D打印组件,2小时可完成组装 [7][8] - 支持精确操作、接触式操作和动态操作三类任务 [20][22] 核心技术方案 - 采用关节空间映射实现遥控操作,使用WidowX作为主动臂控制ViperX从动臂 [18] - 系统配备4个罗技C922x摄像头(480×640@30FPS),数据记录频率50Hz [19] - 设计了3D打印"透明手指"和防滑胶带增强抓取能力,采用橡皮筋机构平衡重力 [18][21] ACT算法创新 - 提出Action Chunking with Transformers算法解决模仿学习的复合误差问题 [12] - 通过预测k步动作序列(k=100时成功率从1%提升至44%)减少有效任务范围 [52][53] - 引入Temporal Ensembling技术平滑动作执行,提升3.3%成功率 [29][54] - 采用CVAE建模人类演示数据,对人工数据训练时性能提升33.3% [33][55] 实验验证 - 在6个真实任务和2个仿真任务上测试,仅需10-20分钟演示数据 [51] - 调味瓶开启任务达到80-90%成功率,RAM安装等接触任务表现良好 [12][22] - 50Hz控制频率显著优于低频(5Hz时操作时间增加62%) [56] 应用限制 - 无法处理需要多指协同(如儿童药瓶)或大力操作(如开密封瓶)的任务 [57] - 对精细视觉感知要求高的任务(如开糖果包装)成功率较低 [60][61] - 低成本电机扭矩限制导致无法完成某些力量型操作 [57]