Workflow
NAR模型
icon
搜索文档
13.8倍吞吐提升!浙大上海AI Lab等提出视觉生成新范式,从“下一个token”到“下一个邻域”
量子位· 2025-03-30 02:37
视觉生成效率瓶颈 - 传统"下一个token预测"方法在图像/视频生成任务中面临严重效率瓶颈 需数千至数万次前向计算导致速度缓慢 [12] - 现有加速方法如并行生成多个token易因邻近token强相关性导致生成质量下降 [13] 邻近自回归建模(NAR)创新 - 采用"下一个邻域预测"机制 将生成过程重构为逐步扩展的"外绘"过程 按曼哈顿距离从初始token依次生成 [2][3] - 引入维度导向解码头 每个头负责空间/时间正交维度预测 实现多token并行生成 [4][16] - 支持高维扩展 视频生成可增加时间维度解码头 三步并行生成(时间/行/列) [17][18] 效率提升量化表现 - 视频生成步骤从传统tn步降至2n+t−2步 如t×n×n token视频效率显著提升 [19][20] - ImageNet 256×256任务中 372M参数NAR-L模型比1.4B参数LlamaGen-XXL FID更低(3.06 vs 3.09) 吞吐提升13.8倍(195.4 vs 14.1 images/s) [21] - UCF-101视频数据集生成步骤减少97.3% 相比PAR方法吞吐提升8.6倍且FVD更低 [23][24] 生成质量对比 - 文本到图像任务中 仅用0.4%训练数据(6M)即达到Stable Diffusion v1.5水平 综合得分0.43优于1.4B数据量的Chameleon-7B(0.39) [26][27] - 在保持质量同时 NAR-M模型比VAR-d16实现92%吞吐提升(248.5 vs 129.3 images/s)且FID更低(3.27 vs 3.30) [21] 技术应用前景 - 为高分辨率图像/长视频生成提供高效解决方案 显著突破现有自回归模型效率天花板 [28][29] - 维度导向设计展现强扩展性 可适配更高维视觉内容生成需求 [17][18]