Workflow
ROOT 优化器
icon
搜索文档
Adam的稳+Muon的快?华为诺亚开源ROOT破解大模型训练「既要又要」的两难困境
机器之心· 2025-11-27 04:09
文章核心观点 - 华为诺亚方舟实验室发布新型大模型优化器ROOT,旨在解决现有主流优化器Adam和Muon在大规模训练中的痛点,实现收敛速度与稳定性的兼顾[2] - ROOT通过自适应Newton-Schulz迭代和软阈值去噪两大核心技术,精准修复了Muon的维度脆弱性问题,并增强了对梯度噪声的鲁棒性[21][26][32] - 实验证明,在10B token的预训练中,ROOT的训练损失达到2.5407,比Muon基线低0.01,并在多项下游任务和跨模态任务中表现优于AdamW和Muon[41][43][47] LLM优化器发展历程 - 优化器在LLM训练中扮演核心“引擎”角色,从最早的SGD到引入动量的SGD,确立了神经网络训练的基本范式[5][6] - Adam/AdamW成为深度学习事实标准,通过动量和逐参数自适应学习率提升收敛效率,但在十亿级参数混合精度训练中暴露出数值不稳定性[7] - Muon作为矩阵感知型优化器,将权重矩阵视为整体进行正交化处理,在理论上等同于谱范数下的最速下降,提升了训练效率和显存利用率[8][11][12] 现有优化器的核心局限 - Muon采用固定系数的Newton-Schulz迭代,导致不同维度矩阵的正交化误差大幅波动,例如在2048x2048方阵上MSE达0.0499,存在“维度脆弱性”[19][23][24] - 大模型训练梯度存在“重尾现象”,异常值噪声会被正交化过程放大,严重影响稳定性,甚至导致Transformer的attention logits爆炸[19][30][31] ROOT优化器的技术创新 - 提出自适应Newton-Schulz迭代,为每个特定矩阵大小(m, n)量身定制细粒度系数,使正交化误差显著降低,例如在2048x8192矩阵上MSE从0.0761降至0.00033[26][27][29] - 引入软阈值去噪机制,将梯度矩阵分解为正常分量和异常分量,仅对鲁棒分量进行正交化,通过L1范数惩罚异常值,公式为min‖Mₜ-Bₜ-Oₜ‖²_F + λ‖Oₜ‖₁[32][33][36] ROOT的实验性能表现 - 在1B参数Transformer的10B token预训练中,ROOT的训练损失曲线始终低于Muon,最终损失为2.5407,较Muon低0.01[39][41] - 在9个LLM基准测试中,ROOT平均得分60.12,高于AdamW的59.05和Muon的59.59,并在6个基准上领先[43][44] - 在CIFAR-10视觉任务中,ROOT的Top-1准确率达88.44%,显著优于Muon的84.67%,证明其跨模态泛化能力[46][47] 行业影响与团队背景 - ROOT的代码已开源,其“去噪+正交化”范式有望为万亿级模型训练建立新优化标准,推动AI系统更可靠高效的训练[50][52] - 研究团队来自华为诺亚方舟实验室,共一作者韩凯为专家研究员,谷歌学术引用超2.1万次,通讯作者王云鹤为实验室主任[54][58]