Self-regression
搜索文档
扩散不死,BERT永生,Karpathy凌晨反思:自回归时代该终结了?
36氪· 2025-11-05 04:44
文章核心观点 - 基于RoBERTa的掩码语言模型可通过引入动态掩码率改造为文本扩散模型,实现从表示学习到文本生成的转变 [1][13][26] - 实验证明改造后的RoBERTa Diffusion能生成视觉连贯的文本,表明BERT系模型本质上是固定掩码率训练的文本扩散模型 [21][24][26] - 文本扩散模型采用在整个Token画布上迭代重采样的双向注意力机制,与自回归模型的单向生成机制形成对比 [27][28] 技术原理与实验 - 文本扩散通过在前向过程逐步添加<MASK>噪声,在反向过程训练模型迭代去噪,将掩码语言建模目标扩展为生成过程 [11][13] - 实验使用10个扩散步骤,每个训练批次随机采样从1.0到0.1的掩码比例,推理时从240个<MASK>开始逐步减少掩码比例 [17][18] - 在H200显卡上训练30分钟后,模型基于256长度提示词生成了连贯文本,尽管存在数据集格式化导致的异常 [21][22] 行业影响与前景 - 该方法表明生成领域仍存在优化创新空间,结合AR-Diffusion等技术可进一步提升生成质量与推理速度 [25][28] - 谷歌DeepMind已发布实验性Gemini Diffusion模型,业界认为扩散语言模型在速度上有优势且是下一代AI发展方向 [30] - 扩散模型采用双向注意力机制迭代更新整个Token画布,与自回归模型的单向追加机制形成技术路径差异 [28]