Workflow
自回归图像生成
icon
搜索文档
联合理解生成的关键拼图?腾讯发布X-Omini:强化学习让离散自回归生成方法重焕生机,轻松渲染长文本图像
机器之心· 2025-08-10 04:31
图像生成技术路线 - 自回归模型与扩散模型在图像生成领域存在技术路线之争,自回归模型在文本生成领域表现优异但在视觉领域面临细节失真和语义理解偏差等瓶颈[2] - 目前主流研究采用扩散模型进行图像生成,导致视觉理解和生成任务耦合松散[2] - 腾讯混元团队开发的X-Omni模型通过强化学习显著提升自回归方法的图像生成质量,实现高质量美学输出和复杂指令跟随能力[2][4] X-Omni模型技术突破 - 采用SigLIP2-VQ方法构建tokenizer,结合扩散解码器生成图像,实现离散自回归框架下的视觉理解与生成统一[6] - 应用GRPO强化学习方法优化图像生成,通过200步训练后生成质量显著提升[5][8] - 构建多维度奖励模型系统,涵盖人类美学偏好(HPSv2评分)、文本-图像对齐(Qwen2.5-VL-32B)和OCR准确性(GOT-OCR 2.0/PaddleOCR)等评估维度[9][12] 性能基准测试表现 - 文本渲染能力:在OneIG-Bench英文任务中得分0.901,中文0.895;LongText-Bench英文0.900,中文0.814,超越GPT-4o等竞品[13] - 指令跟随能力:在DPG-Bench总体得分87.65,实体识别(92.59)和关系处理(94.75)表现突出[14] - 复杂场景处理:在GenEval测试中综合得分0.83,单对象识别达0.98,但计数能力(0.75)和色彩属性处理(0.68)仍有提升空间[15] 技术范式创新 - 实现无分类器引导(CFG)的高质量图像生成,证明视觉与语言生成机制的内在统一性[17] - 强化学习在图像生成中的优化效果超越传统监督微调+N选1策略,尤其擅长处理高维空间依赖数据[19] - 开源模型包含完整技术栈(GitHub/Hugging Face),提供论文、代码和演示空间等多维度资源[2]
视觉Token无缝对齐LLMs词表!V²Flow:基于LLMs实现高保真自回归图像生成
量子位· 2025-04-03 02:12
核心观点 - V²Flow是一种新型视觉tokenizer,能够将视觉内容直接嵌入大语言模型(LLM)的词汇空间,实现高质量视觉重建和模态对齐 [4] - 解决了传统视觉tokenizer与LLM词表分布偏差和维度诅咒两大问题 [3] - 在ImageNet-1k测试集上,V²Flow在256和512分辨率下均取得竞争性重建性能,优于TiTok等现有方法 [12][13] - 结合LLMs(如LLaMA2-7B)实现自回归视觉生成,能更准确捕捉文本提示语义细节 [14] 技术设计 视觉词汇重采样器 - 将图像压缩成一维离散token序列,每个token表示为LLM词汇空间上的软类别分布 [4] - 处理后视觉tokens的潜在分布与LLM词汇表高度一致,降低融入LLM的复杂性 [5] 掩码自回归流匹配编码器 - 采用掩码Transformer编码-解码结构,补充视觉tokens的上下文信息 [7] - 条件化速度场模型,从标准正态先验分布重建连续视觉特征 [7] - 相比TiTok,能以更少token实现更高重建质量,提高压缩效率 [7] 端到端自回归视觉生成 - 扩展LLM词汇表,加入特定视觉tokens并用V²Flow码本初始化 [9] - 训练阶段使用文本-图像对单轮对话数据,推理阶段LLM预测视觉tokens后由解码器重建图像 [9] 性能表现 重建质量 - 256分辨率:V²Flow(256 tokens)PSNR 22.37,SSIM 0.65,LPIPS 0.20,优于TiTok(21.44/0.59/0.24) [13] - 512分辨率:V²Flow(1024 tokens)PSNR 23.28,SSIM 0.65,LPIPS 0.22,接近Open-MAGVIT2(23.80/0.65/0.22) [13] - 相同token数量下,V²Flow重建质量显著高于TiTok(如128 tokens时PSNR 22.08 vs 19.97) [13] 文本引导生成 - V²Flow+LLaMA2-7B比Janus-Pro-7B和Lumina-mGPT-7B更能准确捕捉文本提示语义细节 [14] 开源与生态 - 已公开训练与推理代码库,支持快速复现实验 [15] - 计划发布512/1024分辨率预训练模型、集成LLaMA的自回归生成模型及多模态扩展工具包 [15] - 团队招募多模态生成算法实习生,聚焦文本/图像/视频/语音的统一自回归生成范式 [15][16]