自回归范式

搜索文档
纯血VLA综述来啦!从VLM到扩散,再到强化学习方案
具身智能之心· 2025-09-30 04:00
点击下方 卡片 ,关注" 具身智能 之心 "公众号 作者丨 Dapeng Zhang等 编辑丨具身智能之心 本文只做学术分享,如有侵权,联系删文 >> 点击进入→ 具身智能之心 技术交流群 | | | 1. 介绍 机器人学长期以来一直是科学研究中的重要领域。早期的机器人主要依赖预编程的指令和人工设计的控制策略来完成任务分解与执行。这类方法通常应用于简 单、重复性的任务,例如工厂流水线和物流分拣。近年来,人工智能的快速发展使研究者能够在图像、文本和点云等多模态数据中,利用深度学习的特征提取与 轨迹预测能力。通过结合感知、检测、跟踪和定位等技术,研究者将机器人任务分解为多个阶段,以满足执行需求,从而推动了具身智能与自动驾驶的发展。然 而,大多数机器人仍然作为孤立的智能体存在,它们通常为特定任务而设计,缺乏与人类和外部环境的有效交互。 为克服这些局限性,研究者开始探索将大语言模型(LLMs)与视觉语言模型(VLMs)引入机器人操作中,以实现更精准和灵活的控制。现代的机器人操作方法 通常依赖视觉-语言生成范式(如自回归模型 或扩散模型),并结合大规模数据集 以及先进的微调策略。我们将这些方法称为 VLA基础模型,它们 ...
图像分词器造反了!华为 Selftok:自回归内核完美统一扩散模型,触发像素自主推理
机器之心· 2025-05-17 06:00
自回归范式在视觉生成领域的挑战与突破 - 当前视觉生成领域强行将图像网格化为空间token塞入自回归架构,导致因果链破碎,无法真正实现AR本质[1] - 华为盘古团队提出Selftok技术,通过反向扩散过程将自回归先验融入视觉token,使像素流转化为严格遵循因果律的离散序列[1][5] - 该技术入选CVPR 2025最佳论文候选(14/13008,0.1%)[3] 离散化视觉token的技术优势 - 连续视觉表征存在三重缺陷:预测稳定性差(MSE训练误差高于XE分类器)、强化学习复杂度激增、解耦能力受限导致模式坍缩[6] - 离散表征可保持高精度,实现因子更好解耦,且严格满足贝尔曼方程,使RL策略优化具有理论最优解[6][25] - 华为方案在ImageNet重建指标达SOTA:1024 token时rFID 0.54、PSNR 26.30、SSIM 0.805[29] Selftok核心技术架构 - 采用双流编码器:图像分支继承SD3 VAE隐空间,文本分支创新使用可学习连续向量组捕捉扩散特征[20] - 量化器通过EMA更新codebook和"code偏移监测-重激活"机制,解决传统训练不均衡问题[20] - 解码器引入时序感知token分配策略,昇腾910B2上单卡推理速度从8.2秒压缩至0.31秒[20] 多模态训练与强化学习优化 - 预训练扩展LLaMA-3-8B词表,新增32,768个图像token,复用LLM训练范式[24] - 设计两类奖励函数:基于程序的目标检测评估(提升图文一致性)和基于VQA任务的通用评估[25] - RL优化后模型在GenEval Bench达92分,超越GPT-4o;DPG Bench达85.57分,多项子任务SOTA[29][30] 跨模态生成与编辑性能 - 纯AR架构实现LLM与diffusion融合,单凭next-token prediction统一跨模态生成[7] - 图像编辑任务中结构距离35.89、PSNR 23.76,显著优于Prompt-to-Prompt等传统方法[33] - 多轮编辑展示精确指令遵循能力,非编辑区域保持效果匹配GPT-4o和Gemini-2.0[35]