Mixture of Experts (MoE)

搜索文档

量子位· 2025-09-29 04:57

英伟达市场地位与竞争格局 - 英伟达当前在AI芯片市场占据约90%主导地位，主要优势在于芯片设计、软件生态及网络通信技术[9][10] - AMD在推理端具备内存容量优势，但在训练端因网络通信瓶颈仍落后于英伟达[10] - 未来2-3年内AI硬件格局将转向多元化，专用芯片厂商如Cerebras、Grok、SambaNova将针对不同工作负载实现差异化竞争[23][24] AI芯片技术发展趋势 - 芯片设计将更适配Transformer、MoE等特定架构，工作负载集中化使专用芯片开发更易实现[10] - 稀疏计算（如MoE架构）增加芯片设计复杂度，需应对内存访问模式变化[13][14] - 硬件需支持三类工作负载：低延迟智能体系统（毫秒级响应）、高吞吐批量处理（海量数据生成）、交互式聊天机器人[24][96][111] 推理成本优化与技术突破 - 近三年推理成本下降约100倍，未来有望再降低10倍[73][90] - 量化技术推动参数表示从16位降至4位，GPT-oss模型1200亿参数仅需60GB存储空间[82][83] - 架构优化如Flash Attention减少内存访问，DeepSeek的multi-head latent attention压缩KV缓存规模[84] - MoE架构显著提升稀疏度，从Mistral的8专家激活2个（25%）演进至GPT-oss的128专家激活4个（1/32）[86][87] 模型架构演进方向 - Transformer仍是基础架构，但MoE、状态空间模型（如Mamba）等创新持续涌现[13][94][132] - 混合架构（Transformer+Mamba）在降低成本的同时提升推理性能[132] - 架构设计趋向"推理优先"，以最大化每浮点操作的推理效率[131][133] AI工作负载分类与优化 - 三类核心工作负载形成：传统聊天机器人（中等延迟）、极低延迟场景（代码辅助等）、大规模批处理（合成数据生成）[96][111] - 低延迟场景用户愿支付更高成本，高吞吐场景注重批量折扣（如OpenAI批量API提供50%折扣）[24][110] - 代理型工作负载成为新焦点，需整合Web搜索、工具调用等外部能力[20][115] 开发工具与抽象层进展 - Triton成为跨芯片抽象层关键，支持英伟达、AMD、Intel GPU，但需牺牲约5%性能换取开发效率提升[38][40][41] - Mojo、Gluon等领域专用语言快速迭代，解决GPU内核开发痛点[45][50][52] - AI辅助编程工具（如Claude Code）提升开发效率约1.5倍，但全自动内核生成仍处早期阶段[56][67][68] 新兴应用场景与市场机会 - 实时视频生成成为消费端趋势，代表企业包括Pika Labs、Hetra[117][118] - 机器人领域存在重大机遇，需解决多分辨率数据处理与现实世界交互数据缺失问题[135][137][138] - 合成数据市场被低估，在航空、金融等专业领域具有经济价值[99][102][148] 学术与产业协同创新 - 基础突破多源于学术界（如Attention机制、Adam优化器、LayerNorm），产业界负责商业化落地[143][144][145] - 学术探索周期长（2-3年），产业执行速度快（周/月级），形成互补创新模式[140][145] - 政府资金支持早期探索（5-10%成功率），风险投资推动规模化应用[142][146]

英伟达(US:NVDA)

AGI

Transformer

Mixture of Experts (MoE)

Mixture of Experts (MoE)

模型推理成本

人工智能

芯片制造

deepseek技术解读(3)-MoE的演进之路

自动驾驶之心· 2025-07-06 08:44

DeepSeek MoE技术演进 - 核心观点：DeepSeek在MoE架构上持续创新，从V1到V3版本通过细粒度专家分割、共享专家隔离、负载均衡优化等技术手段提升模型性能 [15][16][36] MoE基础架构 - MoE包含三部分：专家网络(前馈网络)、门控网络(计算专家权重)、选择器(TopK策略) [7] - Google提出的Transformer MoE层设计：用MoE替换FFN层，通过门控值加权多个专家输出 [5] - 负载均衡辅助损失解决专家间token分配不均问题，防止少数专家过载 [6][8] DeepSeek V1创新 - 细粒度专家分割：分割FFN隐藏维度增加专家数量，提升知识分解精度 [16] - 共享专家隔离：设置常激活专家捕获共同知识，减少其他专家冗余 [16] - 双层级负载均衡：专家级(公式12-14)和设备级(公式15-17)负载loss [19][23] DeepSeek V2升级 - 设备受限路由机制：限制每个token的激活专家分布在≤3台设备，降低通信成本 [28] - 通信负载均衡loss：公式29-31确保设备间输入输出负载均衡 [30][32] - Token丢弃策略：超过设备容量的低权重token跳过计算，通过残差传递 [33][34] DeepSeek V3改进 - 门控函数升级：用Sigmoid替代Softmax，解决高维度专家(256个)权重区分度问题 [36][38][39] - 精简辅助损失：通过动态bias替代多层级负载loss，减少对主模型干扰 [40][41] - 序列级均衡loss：公式17-19在单样本粒度平衡专家分配 [42][43] 技术演进总结 - V1：建立共享专家+细粒度专家框架，引入双层级负载均衡 [44] - V2：优化通信效率，新增设备路由限制和通信均衡机制 [44] - V3：门控函数革新，负载均衡策略简化，支持更大规模专家 [44]

Mixture of Experts (MoE)

Transformer

Artificial Intelligence

DeepSeekMoE（V1）

DeepSeek V2 MoE

DeepSeek V3 MoE

Mixture of Experts (MoE)

Transformer

Artificial Intelligence

DeepSeekMoE（V1）

DeepSeek V2 MoE

DeepSeek V3 MoE