Workflow
Google机器人
icon
搜索文档
穆尧团队最新!离散扩散引入VLA,支持精确动作建模和一致性训练
具身智能之心· 2025-09-02 00:03
点击下方 卡片 ,关注" 具身智能 之心 "公众号 作者丨 Zhixuan Liang等 编辑丨具身智能之心 本文只做学术分享,如有侵权,联系删文 >> 点击进入→ 具身智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要的。 当机器人看到 "把勺子放在毛巾上" 的指令,如何精准理解图像中的物体位置、解析语言含义,并生成连贯动作?视觉 - 语言 - 动作(VLA)模型正是解决这一问 题的核心技术,但当前方案却陷入两难:自回归模型像 "念课文" 一样逐字生成动作,速度慢还改不了错;连续扩散模型虽能处理复杂动作,却要在主模型外 "外 挂" 模块,训练难、兼容性差。 Discrete Diffusion VLA 提出的 "离散扩散视觉 - 语言 - 动作模型",直接打破了这一困局!它把离散扩散技术首次引入 VLA 动作解码,用一个 Transformer 就统一 了视觉、语言、动作三模态——既不用额外训练扩散模块,又能像 "做拼图" 一样并行解码动作,还能通过 "先拼简单块、再补复杂处" 的策略修正错误。 在 Franka Panda 机械 ...