模型性能与核心突破 - 何恺明团队推出Improved MeanFlow (iMF),成功解决了原始MeanFlow (MF)在训练稳定性、指导灵活性和架构效率上的三大核心问题 [1] - 在ImageNet 256x256基准测试中,iMF-XL/2模型在1-NFE(单步函数评估)中取得了1.72的FID成绩,相较于原始MF的3.43 FID,性能提升了50% [2][19] - iMF在2-NFE时的FID达到1.54,进一步缩小了单步模型与多步扩散模型(FID约1.4-1.7)的性能差距 [20] 技术改进细节 - 训练稳定性:iMF通过重构预测函数,将训练目标重新表述为更稳定的瞬时速度损失,成功将训练流程转换为一个稳定的标准回归问题,解决了原始MF因“目标自依赖”导致的优化不稳定问题 [4][8][11] - 指导灵活性:iMF通过将无分类器指导(CFG)的指导尺度内化为一个可学习的条件输入,在训练时从偏向较小值的幂分布中随机采样,从而在推理时解锁了CFG的全部灵活性,允许调整尺度以优化图像质量或多样性 [12] - 架构效率:iMF引入了高效的上下文内条件作用架构,将所有条件编码成多个可学习的Token并与图像Token拼接输入Transformer,移除了参数量巨大的adaLN-zero模块,使得iMF-Base模型参数量从131M降至89M,尺寸减小了约1/3 [15][17] 模型效率与参数对比 - iMF系列模型在显著提升性能的同时,优化了模型效率,例如iMF-B/2模型参数量为89M,计算量为24.9 Gflops,FID为3.39,而对应的原始MF-B/2模型参数量为131M,计算量为23.1 Gflops,FID为6.17 [3][19] - iMF-XL/2模型参数量为610M,计算量为174.6 Gflops,在1-NFE下FID为1.72,其性能优于许多从预训练多步模型中蒸馏而来的快进模型 [19][22] 研究团队与背景 - 论文一作为耿正阳(CMU博士生),共同一作为清华姚班大二学生Yiyang Lu,尾作为MIT终身副教授何恺明,其他合作者包括Adobe研究员Zongze Wu、Eli Shechtman及CMU机器学习系主任Zico Kolter [3][23][25][28][30][31] - 该研究部分工作在MIT期间于何恺明教授指导下完成,相关前作MeanFlow已入选NeurIPS 2025 Oral [27][33]
后生可畏,何恺明团队新成果发布,共一清华姚班大二在读
36氪·2025-12-04 02:21