Workflow
残差细节
icon
搜索文档
无VAE扩散模型! 清华&可灵团队「撞车」谢赛宁团队「RAE」
机器之心· 2025-10-23 05:09
技术范式创新 - 提出名为SVG的系统性框架,旨在通过结合预训练视觉特征编码器与残差信息学习,替代传统变分自编码器在扩散模型中的应用 [2][3] - 核心思路是利用自监督特征构建统一特征空间,以更强的语义结构解锁模型生成潜力 [12] - 该思路验证了生成、理解与感知任务共享统一潜在空间的可行性,为后续通用视觉模型研发提供了新方向 [28] 传统VAE局限性与问题分析 - 传统VAE的潜在空间存在明显的语义纠缠现象,缺乏清晰语义结构,导致不同类别特征高度混合 [4] - 语义纠缠直接造成训练与推理效率低下,模型需花费大量步数学习数据分布 [4][6] - VAE依赖于重建损失训练,通用性差,在感知理解等视觉核心任务中的效果远不如专门的特征提取器 [8] SVG框架核心技术构成 - SVG自编码器由三部分组成:冻结的DINOv3编码器提供强判别性语义骨架;轻量残差编码器弥补色差并补充高频细节;解码器负责将特征映射回像素空间 [12][17] - 采用通道级拼接方式融合DINO特征与残差特征,并通过分布对齐机制防止残差特征破坏DINO的语义结构 [17] - 分布对齐机制至关重要,消融实验显示无对齐时生成FID从6.12升至9.03,对齐后恢复至6.11 [17] 性能表现:生成质量与效率 - 在ImageNet 256×256数据集上,SVG-XL在训练80个epoch、25步采样条件下,无分类器引导时gFID为6.57,显著优于同规模基线SiT-XL(SD-VAE)的22.58和SiT-XL(VA-VAE)的7.29 [18] - 有分类器引导时,SVG-XL的gFID进一步降至3.54,优于SiT-XL(VA-VAE)的4.13 [18] - 延长训练至1400个epoch后,SVG-XL的gFID可降至1.92,接近当前生成模型SOTA水平 [19] - 在少步数推理方面优势明显,5步采样时SVG-XL的gFID为12.26,远优于SiT-XL(SD-VAE)的69.38和SiT-XL(VA-VAE)的74.46 [22] 多任务通用性与空间特性 - SVG的潜在空间继承了DINOv3的良好性质,可直接用于分类、分割、深度估计等多种视觉任务,无需额外微调编码器 [23] - 消融实验证实SVG编码器完全保持了DINOv3编码器的性能,在ImageNet-1K分类任务中Top-1准确率达81.80% [25] - SVG空间在随机噪声的线性插值与球面线性插值下均能生成平滑过渡的图像,证明了其鲁棒性和可编辑性 [26][30]