STD)

搜索文档
ACM MM 2025 | 小红书AIGC团队提出风格迁移加速算法STD
机器之心· 2025-08-04 07:05
核心观点 - 文章提出单轨迹蒸馏(STD)方法,解决现有一致性模型在风格化任务中风格相似性和美学质量受损的问题 [2][3] - STD通过固定起点η的单条轨迹蒸馏,解决训练与推理轨迹不对齐问题 [8][21] - 引入轨迹状态库降低训练成本,非对称对抗损失提升生成质量 [11][25] - 实验证明STD在风格相似性和美学评估上优于现有加速扩散模型 [5][33] 方法创新 单轨迹蒸馏(STD) - 从固定加噪状态x_(τ_η)出发,通过教师模型完整去噪出多个x_t,使学生模型在完整轨迹上实现自一致性 [8] - 约束学生模型学习时间步s接近教师步t:s∼u[(1-γ)t,t], t∈[0,τ_η] [19][20] - 理论分析显示STD能减小误差上界,同时保留随机性提升模型性能 [18][21] 轨迹状态库 - 预存教师模型PF-ODE轨迹中间状态,避免反复推理带来的训练开销 [11][24] - 按采样概率ρ随机抽取中间状态,保持训练效率与传统一致性模型一致 [24] 非对称对抗损失 - 建立x_s与x_r(r<s)的约束关系,通过时间步错位增强风格化程度 [25] - 实验显示该损失能显著提升图像饱和度和减少纹理噪声 [11][25] 实验结果 对比实验 - 测试集包含wikiArt、COCO和自定义图像/视频数据 [29] - 评估指标:风格相似度(CSD)、LAION美学评分和时间一致性(Warping Error) [29] - NFE=8时STD的CSD达0.503,美学评分4.815,均优于对比方法 [30][33] - 视频生成的Warping Error为0.166,显著优于MCM的0.257 [33] 消融实验 - 轨迹状态库抵消STD带来的3.8倍训练耗时 [36][37] - 非对称对抗损失使CSD从0.537提升至0.561,美学分从5.185提升至5.202 [37] - γ=0.7时在风格保持与细节呈现间取得最佳平衡 [42] 参数分析 - η越大风格化程度越高但内容相关性越弱 [40] - r<s时非对称对抗损失效果最佳,噪点最少 [44][45] 应用扩展 - STD可扩展至基于部分噪声的图像/视频编辑任务,如inpainting [47] - 实验显示STD的inpainting效果比LCM和TCD更自然 [47]