Workflow
大模型训练优化
icon
搜索文档
Adam的稳+Muon的快?华为诺亚开源ROOT破解大模型训练「既要又要」的两难困境
机器之心· 2025-11-27 04:09
文章核心观点 - 华为诺亚方舟实验室发布新型大模型优化器ROOT,旨在解决现有主流优化器Adam和Muon在大规模训练中的痛点,实现收敛速度与稳定性的兼顾[2] - ROOT通过自适应Newton-Schulz迭代和软阈值去噪两大核心技术,精准修复了Muon的维度脆弱性问题,并增强了对梯度噪声的鲁棒性[21][26][32] - 实验证明,在10B token的预训练中,ROOT的训练损失达到2.5407,比Muon基线低0.01,并在多项下游任务和跨模态任务中表现优于AdamW和Muon[41][43][47] LLM优化器发展历程 - 优化器在LLM训练中扮演核心“引擎”角色,从最早的SGD到引入动量的SGD,确立了神经网络训练的基本范式[5][6] - Adam/AdamW成为深度学习事实标准,通过动量和逐参数自适应学习率提升收敛效率,但在十亿级参数混合精度训练中暴露出数值不稳定性[7] - Muon作为矩阵感知型优化器,将权重矩阵视为整体进行正交化处理,在理论上等同于谱范数下的最速下降,提升了训练效率和显存利用率[8][11][12] 现有优化器的核心局限 - Muon采用固定系数的Newton-Schulz迭代,导致不同维度矩阵的正交化误差大幅波动,例如在2048x2048方阵上MSE达0.0499,存在“维度脆弱性”[19][23][24] - 大模型训练梯度存在“重尾现象”,异常值噪声会被正交化过程放大,严重影响稳定性,甚至导致Transformer的attention logits爆炸[19][30][31] ROOT优化器的技术创新 - 提出自适应Newton-Schulz迭代,为每个特定矩阵大小(m, n)量身定制细粒度系数,使正交化误差显著降低,例如在2048x8192矩阵上MSE从0.0761降至0.00033[26][27][29] - 引入软阈值去噪机制,将梯度矩阵分解为正常分量和异常分量,仅对鲁棒分量进行正交化,通过L1范数惩罚异常值,公式为min‖Mₜ-Bₜ-Oₜ‖²_F + λ‖Oₜ‖₁[32][33][36] ROOT的实验性能表现 - 在1B参数Transformer的10B token预训练中,ROOT的训练损失曲线始终低于Muon,最终损失为2.5407,较Muon低0.01[39][41] - 在9个LLM基准测试中,ROOT平均得分60.12,高于AdamW的59.05和Muon的59.59,并在6个基准上领先[43][44] - 在CIFAR-10视觉任务中,ROOT的Top-1准确率达88.44%,显著优于Muon的84.67%,证明其跨模态泛化能力[46][47] 行业影响与团队背景 - ROOT的代码已开源,其“去噪+正交化”范式有望为万亿级模型训练建立新优化标准,推动AI系统更可靠高效的训练[50][52] - 研究团队来自华为诺亚方舟实验室,共一作者韩凯为专家研究员,谷歌学术引用超2.1万次,通讯作者王云鹤为实验室主任[54][58]
梁文锋署名DeepSeek新论文:公开V3大模型降本方法
量子位· 2025-05-15 08:37
核心观点 - DeepSeek-V3通过四项创新技术(内存优化、计算优化、通信优化、推理加速)显著提升训练和推理效率,仅用2048块H800 GPU即可达到超大规模集群效果 [2][12][26] - 团队提出从"被动适配硬件"转向"主动设计硬件"的理念,对未来AI硬件发展提出五大维度展望 [28][29][41] 内存优化 - 采用多头潜在注意力(MLA)技术,将键值对压缩为潜在向量,每token仅需70KB缓存,是LLaMA-3的1/28(516KB→70KB) [14][15][20] - KV缓存大小仅为传统方法的1/7到1/4,特别适合长文本处理场景 [15] 计算优化 - 采用混合专家模型(MoE)架构,总参数6710亿但每次仅激活370亿,训练成本仅为稠密模型的1/10(250 vs 2448 GFLOPS/Token) [16][17][18] - 首次在开源大模型应用FP8低精度训练,内存占用和计算量减半,精度损失<0.25% [18][19] 通信优化 - 设计多层胖树网络,将训练与存储通信分离,相比传统三层网络成本降40%、延迟减30% [20][21] - 采用DualPipe流水线并行技术,GPU计算与数据传输重叠,吞吐量提升近1倍 [22] 推理加速 - 多token预测(MTP)技术可并行预测2-3个候选token,生成速度提升1.8倍(10→18 token/秒) [23][24][25] - 在消费级GPU上实现每秒近20个token的生成速度 [17] 未来硬件设计方向 1. **低精度计算**:支持FP32累加/可配置精度,集成LogFMT格式提升计算效率 [30][32] 2. **扩展融合**:统一节点内外通信框架,集成网络协处理器管理流量 [33][44] 3. **网络拓扑**:开发专用RoCE交换机,采用自适应路由和虚拟输出队列优化 [34][35][36] 4. **内存系统**:3D堆叠DRAM、晶圆级集成、稀疏注意力加速器提升带宽 [37][38][39] 5. **容错机制**:支持链路层重试、快速故障切换、智能拥塞控制算法 [40][41]