Workflow
谷歌之后,英伟达入局扩散大语言模型,Fast-dLLM推理速度狂飙27.6倍

核心技术 - 分块 KV 缓存(Block-Wise KV Cache)通过双向缓存策略实现90%以上的激活重用率,显著减少重复计算 [6][12] - 置信度感知并行解码(Confidence-Aware Parallel Decoding)通过动态阈值筛选(如≥0.9置信度)确保生成逻辑连贯性,避免无效组合 [9][13] - 伪代码展示无需训练即可集成到现有扩散LLM(如LLaDA、Dream)的即插即用加速流程 [15][16] 性能突破 - 在LLaDA模型上实现27.6倍端到端加速,1024 token长文本生成耗时从266秒压缩至12秒,单步延迟从0.26秒降至0.09秒 [18] - GSM8K任务中保持76%准确率的同时实现8.1倍吞吐量提升,HumanEval代码生成任务准确率提升1.2%且吞吐量增加3.7倍 [21] - 主流基准测试中精度损失控制在2%以内,验证技术通用性(兼容LLaDA、Dream等模型) [19][21] 应用价值 - 零训练成本特性支持快速集成到现有系统,不改变模型架构或训练流程即可提升推理效率 [20] - 特别适用于长文本生成(如代码、数学推理)和实时交互场景,解决传统扩散模型推理效率瓶颈 [17][23] - 技术设计为非自回归模型提供新优化范式,有望推动扩散模型在工业级部署中的普及 [23]