Temporal Semantic Entropy (TSE)

搜索文档
dLLM的「Free Lunch」!浙大&蚂蚁利用中间结果显著提升扩散语言模型
机器之心· 2025-08-20 04:26
扩散大语言模型技术突破 - 扩散大语言模型(dLLM)采用迭代去噪生成机制,可一次性生成多个token,在对话、推理和创作任务中展现效率优势,生成速度显著超越传统自回归模型[2] - 现有dLLM解码策略仅关注最终迭代结果,忽视中间迭代蕴含的丰富语义与推理信息,导致潜在准确答案丢失和信息浪费[2] - 数学推理任务中出现"先对后错"现象:模型在中间步骤得出正确答案(如第55步得到25),却在后续迭代中错误修正(如改为2)并坚持错误结果[3] 时序自一致性投票方法 - Temporal Self-Consistency Voting(TCV)利用dLLM去噪过程中每个时间步的中间结果进行时间轴投票,无需额外生成多条回答即可提升性能[9] - TCV为不同时间步结果分配差异化权重,更精准捕捉可靠预测,实现近乎零额外计算成本的性能提升[9] - 在GSM8K数据集上,指数加权方法使LLaDA-8B-Instruct模型准确率提升2.4个百分点(从76.3%升至78.7%)[16] - 在Countdown数据集上,固定加权方法使LLaDA-8B-Instruct准确率提升4.7个百分点(从20.3%升至25.0%)[16] 时序一致性强化训练 - 提出时序语义熵(TSE)概念,通过计算不同迭代步骤预测结果的语义熵来衡量生成过程一致性,低熵值与高任务表现正相关[11][13] - Temporal Consistency Reinforcement(TCR)将TSE作为奖励信号,引导模型降低熵值提升生成稳定性[13] - 仅使用TSE奖励即在Countdown数据集实现24.7%提升,结合正确性奖励后进一步提升至25.3%[16] - 在GSM8K、MATH500、SVAMP数据集分别取得+2.0%、+4.3%、+6.6%的绝对增幅,全面超越仅使用正确性奖励的效果[16] 实验结果验证 - 在GSM8K、MATH500、SVAMP数学推理数据集和Countdown逻辑推理数据集系统测试显示,TCV方法稳定提升性能且不增加计算成本[15] - LLaDA-1.5模型结合TCR后,在Countdown数据集512序列长度下实现34.4个百分点提升(从20.7%升至55.1%)[17] - EverPass@1指标显示模型潜在最高准确率可达88.9%(GSM8K)和49.2%(MATH500),表明中间结果蕴含高质量预测[16] 模型性能优化 - 训练后模型生成稳定性显著提升,中间预测波动减少,输出更简洁精炼[20][23] - 有效token数量下降使答案更简短,减少自我矛盾现象,但中间预测仍有进一步优化空间[23] - 该方法为挖掘dLLM潜力提供新思路,利用时间一致性和语义稳定性提升模型性能[22]