数据潜力
搜索文档
扩散语言模型的潜力被严重低估了!新国立发现可全面超越自回归
自动驾驶之心· 2025-11-15 16:04
研究核心观点 - 扩散语言模型在数据成为瓶颈的未来展现出超越传统自回归语言模型的巨大潜力 [1] - 在数据受限条件下,DLM比AR模型具有大约3倍的数据效率,能更快达到性能交叉点 [5] - DLM通过去除因果偏置和噪声增强技术,能够从有限数据中提取更多信息 [44] 实验设计与设置 - 实验总训练token数量固定为96B,独特token数量从0.5B到96B不等,模型规模为1B [12] - 使用经过修改的Megatron-LM代码库,数据集包括Nemotron-CC、c4-en和RefinedCode [12] - 批量大小为256,序列长度2048,学习率采用预热—稳定衰减策略,初始为2e-4 [12] - 架构采用GPT-2 tokenizer、RoPE、SwiGLU激活函数、预层RMSNorm等技术 [12] 数据预算对性能的影响 - 在较低数据预算下,DLM显著超越AR模型,训练0.5B独特token的DLM可达训练1.5B独特tokenAR模型的性能 [13] - 随着独特数据量增加,交叉点出现越来越晚,数据量越大AR模型越能表现优势 [13] - 在计算资源充足、数据丰富情况下,AR模型更有效拟合数据 [13] 数据质量的影响 - 使用三种质量等级数据(低、中、高质量)训练1B参数的AR和DLM模型 [14] - 数据质量提高使AR模型对质量变化更敏感,DLM交叉点稍微推迟 [16] - 在高质量数据上两者表现都改善,但DLM在数据受限时仍占优势 [16] 模型规模的影响 - 模型规模从1B到8B参数,训练1B独特token,共96个epoch [17] - 较大模型规模使交叉点提前出现,AR模型在数据受限时很快饱和 [19] - DLM可充分利用更大模型规模,随着参数增加表现持续提高 [19] 架构稀疏性对比 - 使用MoE架构对比稀疏和密集模型 [20] - 所有稀疏性水平下DLM始终超越AR模型,交叉点时机为8B密集模型 < 8B1A MoE < 1B密集模型 [22] - 增加FLOPs能显著改善性能,DLM密集架构在数据受限时优于稀疏架构 [22] 噪声注入分析 - 通过向AR模型输入数据注入噪声模拟DLM过程 [24] - 噪声注入对AR模型有提升作用,但无法超越DLM [26] - DLM通过蒙特卡洛采样和噪声增强在数据受限环境中表现更稳定 [26] 大规模扩展验证 - 在大规模独特token数据集上验证交叉点现象,计算预算约1.5T tokens [27] - 训练初期DLM在下游基准任务上明显超越AR模型 [31] - 即使训练达到1.5T token,DLM仍未完全收敛,具有大量未开发潜力 [31] 过拟合与验证损失 - AR模型验证损失上升不一定意味着性能下降,在下游任务中表现仍持续改进 [33] - 即使验证损失上升,正确答案与错误答案之间的NLL差距持续增加 [36] - DLM在极端数据重复情况下(480个epoch,480B tokens)在HellaSwag和MMLU上分别达到56%和33%准确率,显著超过AR模型的41%和29% [40] 技术优势与限制 - DLM去除因果偏置,允许任意顺序建模,更好捕捉数据中的复杂模式 [44] - 训练时DLM需要比AR多约100倍FLOPs,推理时消耗也大得多 [44] - 通过蒙特卡洛采样进行数据增强,从有限数据中更有效学习 [44]
token危机解决?扩散模型数据潜力3倍于自回归,重训480次性能仍攀升
机器之心· 2025-08-10 04:31
研究背景与问题 - 大语言模型发展面临高质量训练文本数据即将枯竭的挑战,成为限制模型性能提升的关键瓶颈 [2] - 新增高质量数据来源少、获取成本高,去重后更加稀缺,导致“优质token不够训练”的危机 [2] 研究方法与规模 - 团队从零开始预训练扩散语言模型与自回归模型,最高规模达80亿参数、4800亿tokens、480个epoch [3] 核心研究发现 - 在token数量受限情况下,DLMs优于自回归模型,数据潜力超出3倍以上 [5][8] - 仅用10亿tokens训练的10亿参数DLM,在HellaSwag上达56%准确率,在MMLU上达33%准确率 [5] - 模型性能未出现饱和,重复训练次数越多提升越明显 [5] 数据重复训练效果 - 将10亿token数据集重复训练480个epoch,总训练量达4800亿tokens,模型在HellaSwag和MMLU上的表现显著优于自回归模型 [14] - 即使在极端重复条件下性能仍未饱和,表明DLMs能从固定语料中提取远超预期的有效信息 [14] 模型能力提升机制 - 尽管验证集上出现过拟合,模型在下游任务表现持续提升,底层判别能力不断改善 [16][17] - 网页文本数据并非完全因果结构,DLMs通过双向建模能从数据中提取更多信息 [19] - DLMs是“超密集模型”,计算上的超高密度直接转化为更强智能 [22] 与自回归模型对比 - 自回归模型优先考虑计算效率而非数据潜力,其Transformer设计限制了建模能力 [24] - 随着计算成本下降,数据可得性成为关键瓶颈,这正是研究DLMs的动力所在 [24] 方法论批判 - 指出同期研究存在方法论缺陷,包括使用未经验证的损失函数形式 [25][26] - 批评该研究使用未训练到最佳状态的自回归模型检查点与最佳扩散模型检查点进行比较的不公平做法 [28] - 指出该研究使用的scaling law公式假设验证集损失不会下降,但实际过拟合会导致验证损失上升 [32]