核心观点 - 上海交通大学DENG Lab与华为联合提出一种名为LoPA的无训练解码算法,通过前瞻并行解码机制,显著提升了扩散大语言模型的推理并行度和吞吐量,突破了现有解码策略的效率瓶颈 [2][7][18] 技术原理与创新 - 核心问题:现有扩散大语言模型普遍采用置信度驱动采样,其贪婪的填词顺序限制了模型的并行潜力,导致单步生成通常局限于1-3个Token [13][14] - 算法创新:LoPA引入前瞻并行解码机制,通过并行探索多个填词顺序分支并验证其未来置信度,主动选择最优路径,从而提升单步生成Token数 [9][16][18] - 关键特性:该算法具有极高的并行度、无需训练、即插即用,并能通过分支并行最大化硬件利用率 [7][8][10] 性能提升数据 - 并行度提升:在GSM8K基准上,LoPA将D2F-Dream模型的单步生成Token数从3.1提升至10.1,并行度提升超过3倍 [3][28][29] - 吞吐量表现:配合自研的LoPA-Dist分布式推理系统,在华为Ascend 910C平台上实现了1073.9 tokens/s的单样本峰值吞吐量,在MBPP和GSM8K基准上的平均吞吐量分别达到1073.86和856.46 tokens/s [3][6][33][34] - 质量保持:在MBPP、HumanEval等多个基准测试中,LoPA在显著提升TPF的同时,保持了与基线模型相当的精度得分 [29][30][31] 系统实现与优化 - 分布式系统:为承载LoPA的多分支计算,团队设计了LoPA-Dist分布式推理系统,引入了分支并行策略,可与张量并行等现有机制混合使用 [24][25] - 硬件平台优化:系统针对NVIDIA CUDA和华为Ascend平台进行了定制优化,分别面向低延迟和高吞吐场景,采用了不同的键值缓存管理协议和并行策略 [23][26][34] 应用与影响 - 模型适用性:该研究在SOTA扩散语言模型D2F上进行了成功验证,未来计划进一步探索在SDAR等更多dLLM架构上的应用 [28][36] - 行业意义:该工作通过算法与系统的协同设计,证明了非自回归模型在保持高性能的同时,能够实现远超传统自回归模型的推理速度,推动了高效生成模型的落地 [36]
7B扩散语言模型单样例1000+ tokens/s!上交大联合华为推出LoPA
机器之心·2025-12-31 08:11