Temporal Semantic Entropy (TSE)

搜索文档

机器之心· 2025-08-20 04:26

扩散大语言模型技术突破 - 扩散大语言模型(dLLM)采用迭代去噪生成机制，可一次性生成多个token，在对话、推理和创作任务中展现效率优势，生成速度显著超越传统自回归模型[2] - 现有dLLM解码策略仅关注最终迭代结果，忽视中间迭代蕴含的丰富语义与推理信息，导致潜在准确答案丢失和信息浪费[2] - 数学推理任务中出现"先对后错"现象：模型在中间步骤得出正确答案（如第55步得到25），却在后续迭代中错误修正（如改为2）并坚持错误结果[3] 时序自一致性投票方法 - Temporal Self-Consistency Voting(TCV)利用dLLM去噪过程中每个时间步的中间结果进行时间轴投票，无需额外生成多条回答即可提升性能[9] - TCV为不同时间步结果分配差异化权重，更精准捕捉可靠预测，实现近乎零额外计算成本的性能提升[9] - 在GSM8K数据集上，指数加权方法使LLaDA-8B-Instruct模型准确率提升2.4个百分点（从76.3%升至78.7%）[16] - 在Countdown数据集上，固定加权方法使LLaDA-8B-Instruct准确率提升4.7个百分点（从20.3%升至25.0%）[16] 时序一致性强化训练 - 提出时序语义熵(TSE)概念，通过计算不同迭代步骤预测结果的语义熵来衡量生成过程一致性，低熵值与高任务表现正相关[11][13] - Temporal Consistency Reinforcement(TCR)将TSE作为奖励信号，引导模型降低熵值提升生成稳定性[13] - 仅使用TSE奖励即在Countdown数据集实现24.7%提升，结合正确性奖励后进一步提升至25.3%[16] - 在GSM8K、MATH500、SVAMP数据集分别取得+2.0%、+4.3%、+6.6%的绝对增幅，全面超越仅使用正确性奖励的效果[16] 实验结果验证 - 在GSM8K、MATH500、SVAMP数学推理数据集和Countdown逻辑推理数据集系统测试显示，TCV方法稳定提升性能且不增加计算成本[15] - LLaDA-1.5模型结合TCR后，在Countdown数据集512序列长度下实现34.4个百分点提升（从20.7%升至55.1%）[17] - EverPass@1指标显示模型潜在最高准确率可达88.9%（GSM8K）和49.2%（MATH500），表明中间结果蕴含高质量预测[16] 模型性能优化 - 训练后模型生成稳定性显著提升，中间预测波动减少，输出更简洁精炼[20][23] - 有效token数量下降使答案更简短，减少自我矛盾现象，但中间预测仍有进一步优化空间[23] - 该方法为挖掘dLLM潜力提供新思路，利用时间一致性和语义稳定性提升模型性能[22]

Temporal Self-Consistency Voting

Temporal Consistency Reinforcement

Temporal Semantic Entropy (TSE)

Artificial Intelligence

Diffusion Large Language Models (dLLMs)

Temporal Self-Consistency Voting

Temporal Consistency Reinforcement

Temporal Semantic Entropy (TSE)

Artificial Intelligence

Diffusion Large Language Models (dLLMs)