语言模型新范式
搜索文档
扩散语言模型的潜力被严重低估了!新国立发现可全面超越自回归
自动驾驶之心· 2025-11-15 16:04
研究核心观点 - 扩散语言模型在数据成为瓶颈的未来展现出超越传统自回归语言模型的巨大潜力 [1] - 在数据受限条件下,DLM比AR模型具有大约3倍的数据效率,能更快达到性能交叉点 [5] - DLM通过去除因果偏置和噪声增强技术,能够从有限数据中提取更多信息 [44] 实验设计与设置 - 实验总训练token数量固定为96B,独特token数量从0.5B到96B不等,模型规模为1B [12] - 使用经过修改的Megatron-LM代码库,数据集包括Nemotron-CC、c4-en和RefinedCode [12] - 批量大小为256,序列长度2048,学习率采用预热—稳定衰减策略,初始为2e-4 [12] - 架构采用GPT-2 tokenizer、RoPE、SwiGLU激活函数、预层RMSNorm等技术 [12] 数据预算对性能的影响 - 在较低数据预算下,DLM显著超越AR模型,训练0.5B独特token的DLM可达训练1.5B独特tokenAR模型的性能 [13] - 随着独特数据量增加,交叉点出现越来越晚,数据量越大AR模型越能表现优势 [13] - 在计算资源充足、数据丰富情况下,AR模型更有效拟合数据 [13] 数据质量的影响 - 使用三种质量等级数据(低、中、高质量)训练1B参数的AR和DLM模型 [14] - 数据质量提高使AR模型对质量变化更敏感,DLM交叉点稍微推迟 [16] - 在高质量数据上两者表现都改善,但DLM在数据受限时仍占优势 [16] 模型规模的影响 - 模型规模从1B到8B参数,训练1B独特token,共96个epoch [17] - 较大模型规模使交叉点提前出现,AR模型在数据受限时很快饱和 [19] - DLM可充分利用更大模型规模,随着参数增加表现持续提高 [19] 架构稀疏性对比 - 使用MoE架构对比稀疏和密集模型 [20] - 所有稀疏性水平下DLM始终超越AR模型,交叉点时机为8B密集模型 < 8B1A MoE < 1B密集模型 [22] - 增加FLOPs能显著改善性能,DLM密集架构在数据受限时优于稀疏架构 [22] 噪声注入分析 - 通过向AR模型输入数据注入噪声模拟DLM过程 [24] - 噪声注入对AR模型有提升作用,但无法超越DLM [26] - DLM通过蒙特卡洛采样和噪声增强在数据受限环境中表现更稳定 [26] 大规模扩展验证 - 在大规模独特token数据集上验证交叉点现象,计算预算约1.5T tokens [27] - 训练初期DLM在下游基准任务上明显超越AR模型 [31] - 即使训练达到1.5T token,DLM仍未完全收敛,具有大量未开发潜力 [31] 过拟合与验证损失 - AR模型验证损失上升不一定意味着性能下降,在下游任务中表现仍持续改进 [33] - 即使验证损失上升,正确答案与错误答案之间的NLL差距持续增加 [36] - DLM在极端数据重复情况下(480个epoch,480B tokens)在HellaSwag和MMLU上分别达到56%和33%准确率,显著超过AR模型的41%和29% [40] 技术优势与限制 - DLM去除因果偏置,允许任意顺序建模,更好捕捉数据中的复杂模式 [44] - 训练时DLM需要比AR多约100倍FLOPs,推理时消耗也大得多 [44] - 通过蒙特卡洛采样进行数据增强,从有限数据中更有效学习 [44]