行业技术趋势:MoE架构成为主流及其带来的挑战 - 以ChatGPT、Gemini、DeepSeek-V3、Kimi-K2为代表的主流大模型已普遍采用混合专家架构及专家并行策略,MoE技术已在产业应用中逐渐成为主流 [1] - 以代码智能体、Cursor类对话式IDE为代表的新型应用,显著推高了用户请求规模并大幅拉长了单次推理的上下文长度,两者均呈现出一个数量级以上的增长 [1] - 在MoE架构下,上述变化不仅线性放大了计算开销,还显著增加了跨专家的通信与调度成本,使得整体系统压力接近一个数量级提升,并在规模化服务场景中被进一步放大 [1] MoE专家并行架构的性能瓶颈 - 在专家并行策略下,token需要在不同专家所在的GPU之间进行跨设备的数据重排与通信,形成分布式数据重排过程,其典型执行流程包括通信前后的本地重排和跨GPU的All-to-All通信 [7][13] - 随着专家并行规模的扩大,分布式数据重排的开销呈上升趋势,在端到端总延迟中所占比例总体上不断增加,已成为重要性能瓶颈 [11] - 量化分析显示,以32 MB数据为例,在机内通信场景下,数据重排操作在总shuffle时间中的占比高达68.8%;在跨机通信场景下,占比为25% [12][14] - 传统的All-to-All通信对token冗余和网络层次缺乏感知,同一token可能被重复发送多次,造成带宽浪费 [14] - 当前主流通信解决方案基于“通信与数据布局解耦”的传统设计假设,难以高效应对实际生产中的复杂数据访问模式,性能已逐渐趋近瓶颈 [2][8] 创新解决方案:FUSCO通信库的核心设计 - 无问芯穹联合多所高校推出高效通信库“FUSCO”,旨在解决MoE模型在专家并行策略下的通信瓶颈 [3] - FUSCO采用全新的融合式通信优化路径,核心思路是将通信过程与数据底层布局主动协同,在数据搬运的同时完成布局转换,从而彻底消除冗余的数据重排操作 [4][16] - 其设计打破了将重排视为独立步骤的传统思路,通过协同设计通信接口和底层算子,使数据重排被自然地融合进通信过程本身 [18][19] - 通信接口上,FUSCO将通信数据抽象为一组逻辑段,并使用段描述符数据结构记录其起始地址,通过gather-send和scatter-recv两个互补的原语实现端到端的精确数据放置 [21][23] - 在执行层面,FUSCO通过一套流水线化的执行方式,将布局整理与数据传输紧密绑定,在引入灵活重排能力的同时,维持与高性能通信库相当的带宽效率 [24][27] FUSCO的通信调度与优化策略 - FUSCO的通信调度核心目标是在消除重排的基础上,减少跨机传输量并平衡各设备通信负载 [28] - 系统会生成详细的执行计划,将MoE的token路由信息转化为可直接执行的低层指令 [28] - 为提升跨节点通信效率,FUSCO为每个发送GPU在每个目标节点指定一个“转发GPU”,通过节点内高速链路分发数据,减少了跨节点重复传输 [30] - 通过将转发GPU组织成通信组,确保高负载GPU分散在不同组中,实现在线负载均衡,避免网络热点 [30] - 与DeepEP不同,FUSCO能在多种网络环境下高效运行,无需针对网络做额外调优,具有更好的可移植性 [32] FUSCO的性能表现与优势 - 在通信性能测试中,使用64张GPU,在真实推理流量、单节点路由流量、负载不均衡流量三种典型配置下进行评测,总文本长度最大可达2048K tokens [36][38][40] - 实验结果表明,相较于NCCL和DeepSeek的DeepEP通信库,FUSCO的通信性能最高可分别提升3.84倍和2.01倍,且文本长度越长加速越明显 [4][44] - 在端到端性能测试中,在64张GPU上对Qwen3-235B-A22B和DeepSeek-V3两种MoE模型进行评测 [45] - 在训练任务中,FUSCO相较于NCCL性能最高提升1.39倍,相较于DeepEP性能最高提升1.19倍 [47] - 在推理任务中,FUSCO相较于NCCL性能最高提升1.25倍,相较于DeepEP性能最高提升1.16倍,且模型规模越大,性能提升越显著 [47] - 总结来看,在多节点64 GPU测试中,FUSCO的通信性能分别提升了3.84倍和2.01倍,同时端到端性能增幅最高达40% [48]
超DeepEP两倍!无问芯穹FUSCO以「空中变阵」突破MoE通信瓶颈,专为Agent爆发设计
机器之心·2025-12-31 09:31