MoE模型
搜索文档
昇腾杀手锏FlashComm,让模型推理单车道变多车道
雷峰网· 2025-05-22 11:29
大模型推理中的通信挑战与华为解决方案 核心观点 - 华为通过创新通信技术突破MoE模型推理中的三大通信难题,显著提升大模型推理效率[1][19] 大模型推理的通信基础 - 大语言模型参数规模呈指数级增长,部署形态从单卡演进至数百卡集群,MoE模型成为新趋势[2] - 集合通信操作(如AllReduce、All-Gather)是大模型多节点协作的关键,支持张量并行(TP)、数据并行(DP)、专家并行(EP)等策略[4][5] MoE模型的通信痛点 - MoE模型参数突破千亿级别,专家数量增长导致通信带宽需求呈平方级增长,引发网络拥塞[6] - 传统AllReduce在TP方案中跨节点带宽受限,端到端推理时延占比过高[7] - 计算与通信强耦合导致硬件资源利用率低下,流程串行化加剧性能瓶颈[6][11] 华为三大技术创新 1 多流并行技术 - 将MoE计算流程拆解为激活通信、门控决策等模块,通过昇腾多流引擎实现三股计算流并行[12] - 采用TP8分片与流水线技术,多卡并行时释放2GB内存,DeepSeek模型Prefill阶段提速超10%,Decode吞吐提升25%-30%[12] 2 AllReduce革新 - 将AllReduce拆解为ReduceScatter+AllGather,插入INT8动态量化技术使通信量降35%[14] - 关键计算量减少至1/8,DeepSeek Prefill性能提升22-26%,Llama3.1-70B Decode性能提升14%[14] 3 以存换传技术 - 通过矩阵乘法并行维度调整,将三维张量压缩为二维矩阵,注意力机制阶段通信量降86%[15] - 结合INT8量化使DeepSeek整体推理速度提升33%[15] 技术体系与未来方向 - FlashComm系列技术通过通信算子重构、数据维度优化和计算流程并行化实现端到端加速[19] - 未来将聚焦超大规模EP下的权重自动预取、模型自动多流并行等方向[19] 行业影响 - 华为技术已应用于DeepSeek V3/R1等超大规模MoE模型,国产芯片推理性能达国际领先水平[21] - 昇腾平台实现MoE专家动态部署优化,系统吞吐提升10%[21]
十年前的手机都能跑,阿里掏出了最适合落地的小模型?
观察者网· 2025-05-12 10:01
通义Qwen3模型发布 - 阿里巴巴旗下通义平台推出新一代开源模型Qwen3系列,包含8款不同尺寸,其中6款为Dense模型(参数0.6B至32B),2款为MoE模型(参数30B和235B)[1] - 最小0.6B模型参数量仅6亿,远低于2019年GPT-2的15亿参数,可在10年前手机芯片上运行,4B/8B模型表现更优[1][9] - 阿里云CTO表示多尺寸设计旨在满足不同场景需求:手机端推荐4B,电脑/汽车端推荐8B,企业级偏好32B[1] 稠密模型技术特性 - Dense模型采用全连接架构,所有参数全局共享,相比MoE架构更适合低延迟场景如客服/推荐/风控[3][4][7] - 稠密模型具有简单性、高效性和普适性优势,Pytorch/TensorFlow工具链成熟,个人开发者落地成本低[7][8] - 随着参数膨胀,稠密模型训练成本上升,MoE架构通过稀疏门控节约资源但增加通信成本[7] 小模型性能表现 - Qwen3-0.6B可在2014年骁龙801芯片(4核2.5G CPU)上运行,当前小天才手表芯片性能是其2倍[9][10] - 实测显示iPhone 16 Pro Max实时响应,2015年索尼手机延迟1秒;4B模型能准确回答脑筋急转弯问题[11][13] - 官方称Qwen3-4B性能媲美Qwen2.5-72B,智能手机可流畅运行4B模型,电脑可运行8B模型[14] 行业生态适配 - 英特尔完成车端/AI PC适配,海光信息DCU芯片完成全系列8款模型优化[14][15] - 模型支持119种语言(上代29种),采用Apache2.0协议开源,覆盖全球200多国市场[17] - 开发者反馈小模型适合高并发(万级QPS)、低延迟(毫秒级)场景,已有企业用于边缘设备数据分析[18] 阿里AI战略布局 - 电商/物流/金融科技业务天然适合Dense模型,可降低大模型幻觉风险[17] - 整合天猫精灵与夸克团队,通义MAU1.48亿居国内AI应用榜首,强化"云+端"协同[19][21] - 小模型战略可降低算力成本,应对C端渗透率提升带来的资源压力[21]