Discrete Diffusion VLA

搜索文档
穆尧团队最新!Discrete Diffusion VLA离散扩散引入VLA,支持精确动作建模和一致性训练
具身智能之心· 2025-09-01 10:00
文章核心观点 - 离散扩散视觉-语言-动作模型(Discrete Diffusion VLA)通过引入离散扩散技术至动作解码,解决了现有自回归模型速度慢和连续扩散模型训练复杂的问题,实现了视觉、语言和动作三模态的统一处理,并在多个机器人任务中展现出显著性能优势 [1][6][7] 技术方案与架构 - 采用单一Transformer架构统一处理多模态输入,包括视觉token(通过SigLIP+DINOv2 ViT编码)、语言token(通过Llama 2 tokenizer编码)和离散化动作token,无需额外扩散模块 [6][12][13] - 训练阶段通过随机掩码动作token并计算交叉熵损失,与视觉-语言模型的掩码语言建模目标完全兼容,可直接复用预训练优化器和训练管线 [12][14] - 推理阶段通过迭代去噪和自适应重掩码策略(默认12轮迭代),实现动作序列的并行解码和错误修正,比自回归模型减少4.7倍函数评估次数 [15][16][18] 性能表现 - 在LIBERO任务的Franka Panda机械臂上实现96.3%平均成功率,其中Object套件98.6%、Spatial套件97.2%、Goal套件97.4%、Long套件92.0%,较自回归模型OpenVLA(76.5%)提升19.8%,较连续扩散模型π₀(94.2%)提升2.1% [8][21][22] - 在Google机器人的SimplerEnv任务中视觉匹配率达71.2%,显著优于π₀(58.8%)和π₀+FAST(61.9%),整体成功率达64.1% [23][24] - 在WidowX机器人的真实-模拟迁移场景中整体成功率达49.3%,较连续扩散基准π₀(27.8%)提升21.5%,较π₀+FAST(39.5%)提升9.8% [25][26] 创新点与实验验证 - 首次将离散扩散技术引入视觉-语言-动作模型的动作解码,支持并行解码和渐进式优化,无需外挂扩散模块 [6][7][12] - 自适应解码策略(基于最大置信度排序)在LIBERO-Goal套件上实现97.4%成功率,较并行解码策略(95.6%)提升1.8% [27][29] - 衰减温度调度(Temp=1-t)通过早期高温度探索和后期低温度确定性优化,成功率97.4%,较硬采样(96.2%)提升1.2% [28][29] 研究团队与背景 - 由香港大学、上海人工智能实验室、上海交通大学和华为云计算技术有限公司联合提出,论文发表于arXiv平台 [3][4]