Workflow
离散扩散
icon
搜索文档
E0:离散扩散新框架,大幅提升 VLA 模型泛化与操控精度
具身智能之心· 2025-11-29 02:07
文章核心观点 - 提出一种名为E0的新型视觉-语言-动作模型,通过创新的“连续化离散扩散”范式,旨在解决现有VLA模型在泛化能力、细粒度动作控制和建模范式兼容性方面的关键瓶颈 [1][3] - 该模型在三大基准测试和真实世界实验中均达到最先进的性能水平,平均超过基线10.7% [21] 出发点与背景 - 机器人在开放环境中的操作需要具备复杂视觉场景感知、自然语言指令理解和精准可靠的动作生成三大核心能力 [1] - 现有VLA模型作为统一框架,仍面临泛化能力不足、动作控制粗糙和建模范式矛盾等关键瓶颈 [1][3] E0核心创新点 - 针对泛化能力不足问题,难以适配多样的任务指令、环境配置和相机视角 [3] - 针对动作控制粗糙问题,生成的动作不够精细,在插装、抓取特定图案物体等细粒度操作中易失败 [3] - 针对建模范式矛盾,离散建模受限于动作词汇量,连续扩散建模与预训练backbone的符号结构语义错位 [3][4] 技术框架介绍 - 架构以PaliGemma开源VLM为backbone,新增3亿参数的动作专家网络 [6] - 核心逻辑是将连续动作离散化后,通过扩散模型实现迭代优化,同时保留与预训练视觉语言模型的兼容性 [6] - 动作表示采用分位数离散化策略,过滤异常值以保证机器人推理稳定性 [8] 性能表现 - 在LIBERO基准测试中平均成功率达到96%,超过基线模型 [21] - 在ManiSkill基准测试中平均成功率为55.2%,显著优于π₀、RDT等基线模型 [24] - 在真实世界实验中,基于Franka Research 3机械臂,在8类任务中平均成功率为45.6%,高于π₀(43.1%)和π₀ FAST(10.0%) [28] 技术优势 - 连续化离散扩散范式将动作生成建模为对量化动作token的迭代去噪,避免分布失配问题 [11] - 支持任意数量的离散分箱(最高可达2048及以上),突破自回归模型256分箱的限制,提升动作分辨率 [11] - 球面视角扰动增强通过模拟相机在观测球面上的运动生成扭曲图像,提升模型对相机视角变化的鲁棒性 [11] 局限与未来方向 - 特定任务语义对齐不足,在VLABench的Select Painting任务中表现较弱 [35] - 复杂协调任务存在瓶颈,双臂协同、长时程时序依赖任务性能不及单臂任务 [35] - 机械交互建模不足,对需要精细力矩控制的任务存在操作精度短板 [35]