Workflow
大规模语言模型(LLM)
icon
搜索文档
ICML 2025 Spotlight|华为诺亚提出端侧大模型新架构MoLE,内存搬运代价降低1000倍
机器之心· 2025-05-07 00:33
核心观点 - Mixture-of-Experts(MoE)在推理时仅激活每个token所需的一小部分专家,凭借稀疏激活特点成为当前LLM主流架构,但整体参数规模仍大于同等性能的Dense模型,在显存资源受限的端侧部署场景面临挑战 [1] - 现有专家卸载(Expert Offloading)方案存在两大缺陷:频繁加载不同专家导致显著推理延迟,批量解码场景可能需加载整层所有专家加剧显存压力 [11] - 研究人员提出Mixture-of-Lookup-Experts(MoLE),通过将专家输入改为embedding token并采用查找表替代矩阵运算,从根本上规避频繁加载开销 [5][6] 技术原理 - MoLE核心思想是预先计算所有可能的输入-输出对应关系并存储为查找表,用简单查找操作代替矩阵运算,需满足专家模块输入来自离散有限集合且检索过程不依赖密集计算 [5] - embedding token天然具备离散有限特性,数量与词表大小一致,可通过token ID直接寻址,满足查找表构建要求 [6] - 训练阶段MoLE与标准MoE有三点区别:输入调整为embedding token、激活所有路由专家、仅使用语言建模损失 [8][9][10] 推理优化 - 推理前MoLE通过预构建查找表完成专家模块重参数化,以embedding层权重矩阵作为专家输入计算完整映射集合 [15] - 查找表构建完成后删除原始路由专家模块,存储在下层设备中,推理时根据token ID直接检索专家输出 [16] - MoLE推理时仅保留共享专家模块,计算量与Dense模型相当,传输开销比MoE减少数个量级,存储需求与单个专家模块同数量级 [17] 实验验证 - 在Pile数据集100B-token子集上训练160M/410M/1B参数模型,控制MoE和MoLE训练参数量相等 [20] - 相同条件下MoLE性能与MoE相当且显著优于Dense,传输开销减少千倍以上 [21] - V100评测显示MoLE推理延迟与Dense基本一致,批量解码场景下延迟稳定,显著优于MoE [22] 性能分析 - 专家数量提升时模型性能同步提升,但专家隐层维度增大到一定程度后性能受限于查找表固定大小达到饱和 [25][26] - 消融实验证实MoLE训练无需辅助损失,查找表可压缩至3-bit精度(如NF3格式)而性能基本不变 [24][27] - MoLE通过激活所有专家弥补输入缺乏上下文信息的缺陷,共享专家和路由保留上下文理解能力 [26][27]