MoE模型 - 财报，业绩电话会，研报，新闻

MoE模型

搜索文档

雷峰网· 2025-05-22 11:29

大模型推理中的通信挑战与华为解决方案核心观点 - 华为通过创新通信技术突破MoE模型推理中的三大通信难题，显著提升大模型推理效率[1][19] 大模型推理的通信基础 - 大语言模型参数规模呈指数级增长，部署形态从单卡演进至数百卡集群，MoE模型成为新趋势[2] - 集合通信操作（如AllReduce、All-Gather）是大模型多节点协作的关键，支持张量并行(TP)、数据并行(DP)、专家并行(EP)等策略[4][5] MoE模型的通信痛点 - MoE模型参数突破千亿级别，专家数量增长导致通信带宽需求呈平方级增长，引发网络拥塞[6] - 传统AllReduce在TP方案中跨节点带宽受限，端到端推理时延占比过高[7] - 计算与通信强耦合导致硬件资源利用率低下，流程串行化加剧性能瓶颈[6][11] 华为三大技术创新 1 多流并行技术 - 将MoE计算流程拆解为激活通信、门控决策等模块，通过昇腾多流引擎实现三股计算流并行[12] - 采用TP8分片与流水线技术，多卡并行时释放2GB内存，DeepSeek模型Prefill阶段提速超10%，Decode吞吐提升25%-30%[12] 2 AllReduce革新 - 将AllReduce拆解为ReduceScatter+AllGather，插入INT8动态量化技术使通信量降35%[14] - 关键计算量减少至1/8，DeepSeek Prefill性能提升22-26%，Llama3.1-70B Decode性能提升14%[14] 3 以存换传技术 - 通过矩阵乘法并行维度调整，将三维张量压缩为二维矩阵，注意力机制阶段通信量降86%[15] - 结合INT8量化使DeepSeek整体推理速度提升33%[15] 技术体系与未来方向 - FlashComm系列技术通过通信算子重构、数据维度优化和计算流程并行化实现端到端加速[19] - 未来将聚焦超大规模EP下的权重自动预取、模型自动多流并行等方向[19] 行业影响 - 华为技术已应用于DeepSeek V3/R1等超大规模MoE模型，国产芯片推理性能达国际领先水平[21] - 昇腾平台实现MoE专家动态部署优化，系统吞吐提升10%[21]

Telecommunications Equipment

Telecommunications Equipment

昇腾

十年前的手机都能跑，阿里掏出了最适合落地的小模型？

观察者网· 2025-05-12 10:01

通义Qwen3模型发布 - 阿里巴巴旗下通义平台推出新一代开源模型Qwen3系列，包含8款不同尺寸，其中6款为Dense模型（参数0.6B至32B），2款为MoE模型（参数30B和235B）[1] - 最小0.6B模型参数量仅6亿，远低于2019年GPT-2的15亿参数，可在10年前手机芯片上运行，4B/8B模型表现更优[1][9] - 阿里云CTO表示多尺寸设计旨在满足不同场景需求：手机端推荐4B，电脑/汽车端推荐8B，企业级偏好32B[1] 稠密模型技术特性 - Dense模型采用全连接架构，所有参数全局共享，相比MoE架构更适合低延迟场景如客服/推荐/风控[3][4][7] - 稠密模型具有简单性、高效性和普适性优势，Pytorch/TensorFlow工具链成熟，个人开发者落地成本低[7][8] - 随着参数膨胀，稠密模型训练成本上升，MoE架构通过稀疏门控节约资源但增加通信成本[7] 小模型性能表现 - Qwen3-0.6B可在2014年骁龙801芯片（4核2.5G CPU）上运行，当前小天才手表芯片性能是其2倍[9][10] - 实测显示iPhone 16 Pro Max实时响应，2015年索尼手机延迟1秒；4B模型能准确回答脑筋急转弯问题[11][13] - 官方称Qwen3-4B性能媲美Qwen2.5-72B，智能手机可流畅运行4B模型，电脑可运行8B模型[14] 行业生态适配 - 英特尔完成车端/AI PC适配，海光信息DCU芯片完成全系列8款模型优化[14][15] - 模型支持119种语言（上代29种），采用Apache2.0协议开源，覆盖全球200多国市场[17] - 开发者反馈小模型适合高并发（万级QPS）、低延迟（毫秒级）场景，已有企业用于边缘设备数据分析[18] 阿里AI战略布局 - 电商/物流/金融科技业务天然适合Dense模型，可降低大模型幻觉风险[17] - 整合天猫精灵与夸克团队，通义MAU1.48亿居国内AI应用榜首，强化"云+端"协同[19][21] - 小模型战略可降低算力成本，应对C端渗透率提升带来的资源压力[21]

阿里巴巴(US:BABA)

Dense模型

MoE模型

Artificial Intelligence

Artificial Intelligence