图像生成技术
搜索文档
天下苦VAE久矣:阿里高德提出像素空间生成模型训练范式, 彻底告别VAE依赖
量子位· 2025-10-29 02:39
技术突破与核心优势 - 提出名为EPG的新训练框架,通过自监督预训练与端到端微调相结合的方式,彻底消除了生成模型对变分自编码器的依赖[1] - 在ImageNet-256数据集上仅需75次模型前向计算即可达到2.04的FID分数,在ImageNet-512数据集上达到2.35的FID,生成质量优于主流模型[3] - 首次在不依赖VAE及预训练扩散模型权重的前提下,成功在像素空间中端到端训练一致性模型,在ImageNet-256上单步生成即可取得8.82的FID[5] 传统VAE范式的局限性 - VAE训练过程复杂,需要在图像压缩率与重建质量之间取得精妙平衡,极具挑战性[6] - 当需要在新的领域微调生成模型时,若预训练的VAE表现不佳,必须连同生成模型一起微调,这会显著增加训练成本和开发周期[6] 训练效率与成本 - EPG框架总训练开销显著低于主流模型DiT,预训练/VAE训练时间为57小时,而DiT为160小时;微调时间为139小时,而DiT预估为506小时[7] - 训练方法借鉴计算机视觉的经典范式,将复杂生成任务解耦为两个更易处理的阶段:自监督预训练和端到端微调,极大简化了训练流程[7][14] 两阶段训练方法详解 - 第一阶段自监督预训练专注于解耦表征学习与像素重建,模型仅训练编码器部分,通过对比损失和表征一致性损失从带噪图像中提取高质量视觉特征[8][9] - 第二阶段端到端微调将预训练好的编码器与随机初始化的解码器拼接,直接使用扩散模型或一致性模型的损失函数进行微调,无缝衔接下游生成任务[13] 性能基准对比 - 在ImageNet-256任务上,EPG/16模型的FID为2.04,优于隐空间模型如DiT-XL/2的2.27和SiT-XL/2的2.06,也优于其他像素空间模型[16] - 在ImageNet-512任务上,EPG/32模型在800个周期后FID达到2.35,优于对比的隐空间和像素空间模型[16] - 在一致性模型训练上,EPG在像素空间单步生成FID为8.82,显著优于隐空间模型如Shortcut-XL/2的7.80[17] 推理性能与可扩展性 - 基于EPG训练的扩散模型在推理时仅需75次模型前向计算即可达到最优效果,步数远低于其他方法[18] - 模型在256x256和512x512分辨率图像上均能保持一致的生成速度,展现了优异的可扩展性[18]
阿里图像生成模型登顶 HuggingFace,一句话把马斯克“变老”
36氪· 2025-08-20 08:34
模型技术特点 - 通过系统性的数据工程、渐进式学习策略、改进的多任务训练范式和可扩展架构优化,解决复杂文本渲染和精准图像编辑的核心难题 [1] - 构建包含数十亿级别图文数据的大规模数据处理体系,采用七阶段精细化过滤管道提升数据质量与图文对齐度 [5] - 通过"纯粹渲染"、"组合渲染"和"复杂渲染"三种策略合成高质量文本图像数据,弥补自然数据不足 [5] - 采用由简到繁的"课程学习"策略训练,显著增强复杂中英文文本渲染能力 [5] - 提出增强的多任务学习框架,将输入图像编码为高层语义特征和低层重建特征两种互补特征 [5] - 采用多模态扩散Transformer(MMDiT)作为模型骨干,配合"双重编码"设计平衡语义连贯性与视觉保真度 [6] - 模型架构由Qwen2.5-VL条件编码器、VAE图像压缩与解码器和MMDiT核心生成网络三部分组成 [6] - VAE采用"单编码器、双解码器"独特架构,在保证高质量图像重建的同时为视频生成任务扩展奠定基础 [6] - MMDiT内部引入MSROPE新型位置编码方法,通过将文本信息置于图像网格对角线改善文本与图像特征对齐 [6] - 训练过程采用从低分辨率到高分辨率、从无文本图像到有文本图像的渐进式策略,结合监督微调和直接偏好优化等强化学习方法 [6] 性能表现 - 在通用的图像生成、复杂文本渲染及指令式图像编辑任务上达到业界领先水平 [6] - 在自然界不存在物体的生成任务中,冰山渲染效果优于GPT-5,但火焰与冰山的融合表现存在改进空间 [7] - 在图像重构任务中,能准确理解"漂浮空中"指令并保持背景一致性,而GPT-5则过度解读导致背景完全改变 [12] - 在处理包含特定元素(如星条旗)的图像编辑任务时展现出色能力,成功完成GPT-5和Gemini无法实现的修改指令 [20] - 能保持人物姿态和尺寸不变的情况下,将对象置于火星沙尘暴环境并添加未来主义太空车背景元素 [20] 应用场景比较 - 展现与Photoshop相似的核心编辑能力,但通过自然语言指令而非直接操作工具实现功能 [25] - 通过文本指令实现对象增删操作,并能理解风格要求自动匹配背景,对标Photoshop的内容识别填充功能 [25] - 具备材质与风格转换能力,可通过指令完成如"珐琅彩玻璃艺术"风格的渲染,直接对标Photoshop滤镜库和纹理叠加功能 [26] - 在图像结构性变化处理上超越传统工具,能理解复杂姿态调整指令并保持人物身份、服装细节和背景一致性 [26] - 提供语义级、概率性控制而非像素级精确控制,用户通过描述"什么"而非"如何做"来实现编辑效果 [27] - 采用"一次性"再生成工作流而非基于图层的非破坏性工作流,与Photoshop的图层堆栈逻辑存在根本差异 [28] - 大幅降低图像编辑技术门槛,但需要掌握提示词工程这一新技能来准确描述视觉意图 [28] - 代表全新的图像内容创作与编辑范式,更侧重于创意构想快速实现和语义层面内容调整 [28] - 与传统编辑软件形成互补关系,专业设计场景仍需Photoshop的精确控制,而创意概念图和营销素材场景则更具效率优势 [29] - 标志着专业软件与语义生成引擎深度融合的发展趋势,为未来AI赋能专业工具提供技术基础 [29]