何恺明团队新作:扩散模型可能被用错了
36氪·2025-11-19 11:22

核心观点 - 最新研究颠覆了扩散模型的主流范式,提出让模型直接预测干净图像而非噪声,实现了“大道至简”的设计理念 [1][2] - 该研究指出当前主流的预测噪声方法存在根本性矛盾,而直接预测图像更符合神经网络处理高维数据的本质 [3][5][6] - 基于此理念提出的极简架构JiT,在不依赖复杂组件的情况下,在多个标准数据集上取得了领先的性能 [7][8][13] 技术原理与创新 - 根据流形假设,自然图像存在于高维空间中的低维流形上,而噪声则均匀弥散于整个高维空间,预测无规律的噪声对模型容量要求极高 [3][5] - 直接预测干净图像是让网络学习将噪点投影回低维流形,对模型容量的要求显著降低,更符合神经网络“过滤噪声、保留信号”的设计初衷 [6] - JiT架构完全基于像素,使用纯Transformer处理大尺寸图像块(Patch),输出目标直接设定为预测干净的图像块,无需VAE、Tokenizer、CLIP等复杂组件 [7][8] 性能表现 - 实验显示,在低维空间下不同方法差异不大,但在高维空间中,传统预测噪声模型FID指数级飙升至379.21,而直接预测原图的JiT模型FID保持稳健,仅为10.14 [10][11] - 模型扩展能力出色,即使将Patch尺寸扩大至64x64(输入维度超过一万维),只要坚持预测原图,无需增加网络宽度也能实现高质量生成 [11] - JiT在ImageNet 256x256和512x256分辨率上分别达到了1.82和1.78的FID分数,实现了SOTA性能 [13][14] 研究团队 - 论文一作为何恺明的开门弟子之一黎天鸿,本科毕业于清华姚班,在MIT获得硕博学位,目前在该团队从事博士后研究 [15][17] - 其主要研究方向为表征学习、生成模型及两者协同作用,目标是构建能理解人类感知之外世界的智能视觉系统 [17]