频域能量动态路由
搜索文档
NUS LV Lab新作|FeRA:基于「频域能量」动态路由,打破扩散模型微调的静态瓶颈
机器之心· 2025-12-12 03:41
研究背景与现有方法局限 - 在大模型时代,参数高效微调已成为将Stable Diffusion、Flux等大规模扩散模型迁移至下游任务的标准范式[3] - 现有主流微调方法如LoRA、AdaLoRA采用静态策略,适配器参数在去噪过程的所有时间步上固定不变,忽略了扩散生成过程内在的时序物理规律[3][8] - 这种静态的“一刀切”方式导致模型在处理复杂结构与精细纹理时顾此失彼,造成了目标错配与计算资源的浪费[3][8] 核心创新:FeRA框架 - 新加坡国立大学LV Lab联合电子科技大学、浙江大学等机构提出FeRA框架,首次从频域能量的第一性原理出发,揭示了扩散去噪过程具有显著的“低频到高频”演变规律[3] - 框架包含三个核心组件:频域能量指示器、软频域路由器、频域能量一致性正则化,形成了一个感知-决策-优化的闭环[11][12][13] - FeRA摒弃传统静态微调思路,通过实时感知潜空间的频域能量分布,动态调度不同的专家模块,实现了参数的解耦[4][16] 技术原理与机制 - 扩散去噪过程具有阶段性特征:生成初期主要恢复图像的低频能量,生成后期重心转移至高频能量[7][15] - 频域能量指示器利用高斯差分算子在潜空间直接提取特征的频域能量分布,形成一个连续的、物理可解释的能量向量[11][16] - 软频域路由器基于能量信号,通过轻量级网络动态计算不同LoRA专家的权重,实现低频主导时激活擅长结构生成的专家,高频主导时过渡至擅长纹理细节的专家[12][16] - 频域能量一致性正则化损失函数强制要求LoRA产生的参数更新量在频域上的能量分布与模型原本的残差误差保持一致,极大提升了训练稳定性[13] 实验验证与性能表现 - 研究团队在Stable Diffusion 1.5、2.0、3.0、SDXL以及最新的FLUX.1等多个主流底座上进行了广泛测试[19] - 在风格迁移任务中,FeRA在Cyberpunk、Watercolor等多种风格数据集上,于FID、CLIP Score和Style评分上均取得了最优或次优的成绩[20] - 在主体定制任务中,FeRA展示了惊人的文本可控性,在CLIP-T指标上显著优于DoRA和AdaLoRA,不仅能记住主体,还能响应新的背景提示词[21][26] 研究总结与行业意义 - FeRA框架通过引入频域第一性原理,将微调从“参数层面的分解”推进到了“机制层面的对齐”[23] - 该工作证明了顺应生成过程的物理规律,利用频域能量进行动态路由,是实现高效、高质量微调的关键路径[23] - 这一工作不仅刷新了各项SOTA指标,更为未来扩散模型在视频生成、3D生成等更复杂任务中的微调提供了极具价值的新思路[27]