TiTok

搜索文档
视觉Token无缝对齐LLMs词表!V²Flow:基于LLMs实现高保真自回归图像生成
量子位· 2025-04-03 02:12
核心观点 - V²Flow是一种新型视觉tokenizer,能够将视觉内容直接嵌入大语言模型(LLM)的词汇空间,实现高质量视觉重建和模态对齐 [4] - 解决了传统视觉tokenizer与LLM词表分布偏差和维度诅咒两大问题 [3] - 在ImageNet-1k测试集上,V²Flow在256和512分辨率下均取得竞争性重建性能,优于TiTok等现有方法 [12][13] - 结合LLMs(如LLaMA2-7B)实现自回归视觉生成,能更准确捕捉文本提示语义细节 [14] 技术设计 视觉词汇重采样器 - 将图像压缩成一维离散token序列,每个token表示为LLM词汇空间上的软类别分布 [4] - 处理后视觉tokens的潜在分布与LLM词汇表高度一致,降低融入LLM的复杂性 [5] 掩码自回归流匹配编码器 - 采用掩码Transformer编码-解码结构,补充视觉tokens的上下文信息 [7] - 条件化速度场模型,从标准正态先验分布重建连续视觉特征 [7] - 相比TiTok,能以更少token实现更高重建质量,提高压缩效率 [7] 端到端自回归视觉生成 - 扩展LLM词汇表,加入特定视觉tokens并用V²Flow码本初始化 [9] - 训练阶段使用文本-图像对单轮对话数据,推理阶段LLM预测视觉tokens后由解码器重建图像 [9] 性能表现 重建质量 - 256分辨率:V²Flow(256 tokens)PSNR 22.37,SSIM 0.65,LPIPS 0.20,优于TiTok(21.44/0.59/0.24) [13] - 512分辨率:V²Flow(1024 tokens)PSNR 23.28,SSIM 0.65,LPIPS 0.22,接近Open-MAGVIT2(23.80/0.65/0.22) [13] - 相同token数量下,V²Flow重建质量显著高于TiTok(如128 tokens时PSNR 22.08 vs 19.97) [13] 文本引导生成 - V²Flow+LLaMA2-7B比Janus-Pro-7B和Lumina-mGPT-7B更能准确捕捉文本提示语义细节 [14] 开源与生态 - 已公开训练与推理代码库,支持快速复现实验 [15] - 计划发布512/1024分辨率预训练模型、集成LLaMA的自回归生成模型及多模态扩展工具包 [15] - 团队招募多模态生成算法实习生,聚焦文本/图像/视频/语音的统一自回归生成范式 [15][16]