超DeepEP两倍！无问芯穹FUSCO以「空中变阵」突破MoE通信瓶颈，专为Agent爆发设计

行业技术趋势：MoE架构成为主流及其带来的挑战 - 以ChatGPT、Gemini、DeepSeek-V3、Kimi-K2为代表的主流大模型已普遍采用混合专家架构及专家并行策略，MoE技术已在产业应用中逐渐成为主流 [1] - 以代码智能体、Cursor类对话式IDE为代表的新型应用，显著推高了用户请求规模并大幅拉长了单次推理的上下文长度，两者均呈现出一个数量级以上的增长 [1] - 在MoE架构下，上述变化不仅线性放大了计算开销，还显著增加了跨专家的通信与调度成本，使得整体系统压力接近一个数量级提升，并在规模化服务场景中被进一步放大 [1] MoE专家并行架构的性能瓶颈 - 在专家并行策略下，token需要在不同专家所在的GPU之间进行跨设备的数据重排与通信，形成分布式数据重排过程，其典型执行流程包括通信前后的本地重排和跨GPU的All-to-All通信 [7][13] - 随着专家并行规模的扩大，分布式数据重排的开销呈上升趋势，在端到端总延迟中所占比例总体上不断增加，已成为重要性能瓶颈 [11] - 量化分析显示，以32 MB数据为例，在机内通信场景下，数据重排操作在总shuffle时间中的占比高达68.8%；在跨机通信场景下，占比为25% [12][14] - 传统的All-to-All通信对token冗余和网络层次缺乏感知，同一token可能被重复发送多次，造成带宽浪费 [14] - 当前主流通信解决方案基于“通信与数据布局解耦”的传统设计假设，难以高效应对实际生产中的复杂数据访问模式，性能已逐渐趋近瓶颈 [2][8] 创新解决方案：FUSCO通信库的核心设计 - 无问芯穹联合多所高校推出高效通信库“FUSCO”，旨在解决MoE模型在专家并行策略下的通信瓶颈 [3] - FUSCO采用全新的融合式通信优化路径，核心思路是将通信过程与数据底层布局主动协同，在数据搬运的同时完成布局转换，从而彻底消除冗余的数据重排操作 [4][16] - 其设计打破了将重排视为独立步骤的传统思路，通过协同设计通信接口和底层算子，使数据重排被自然地融合进通信过程本身 [18][19] - 通信接口上，FUSCO将通信数据抽象为一组逻辑段，并使用段描述符数据结构记录其起始地址，通过gather-send和scatter-recv两个互补的原语实现端到端的精确数据放置 [21][23] - 在执行层面，FUSCO通过一套流水线化的执行方式，将布局整理与数据传输紧密绑定，在引入灵活重排能力的同时，维持与高性能通信库相当的带宽效率 [24][27] FUSCO的通信调度与优化策略 - FUSCO的通信调度核心目标是在消除重排的基础上，减少跨机传输量并平衡各设备通信负载 [28] - 系统会生成详细的执行计划，将MoE的token路由信息转化为可直接执行的低层指令 [28] - 为提升跨节点通信效率，FUSCO为每个发送GPU在每个目标节点指定一个“转发GPU”，通过节点内高速链路分发数据，减少了跨节点重复传输 [30] - 通过将转发GPU组织成通信组，确保高负载GPU分散在不同组中，实现在线负载均衡，避免网络热点 [30] - 与DeepEP不同，FUSCO能在多种网络环境下高效运行，无需针对网络做额外调优，具有更好的可移植性 [32] FUSCO的性能表现与优势 - 在通信性能测试中，使用64张GPU，在真实推理流量、单节点路由流量、负载不均衡流量三种典型配置下进行评测，总文本长度最大可达2048K tokens [36][38][40] - 实验结果表明，相较于NCCL和DeepSeek的DeepEP通信库，FUSCO的通信性能最高可分别提升3.84倍和2.01倍，且文本长度越长加速越明显 [4][44] - 在端到端性能测试中，在64张GPU上对Qwen3-235B-A22B和DeepSeek-V3两种MoE模型进行评测 [45] - 在训练任务中，FUSCO相较于NCCL性能最高提升1.39倍，相较于DeepEP性能最高提升1.19倍 [47] - 在推理任务中，FUSCO相较于NCCL性能最高提升1.25倍，相较于DeepEP性能最高提升1.16倍，且模型规模越大，性能提升越显著 [47] - 总结来看，在多节点64 GPU测试中，FUSCO的通信性能分别提升了3.84倍和2.01倍，同时端到端性能增幅最高达40% [48]