Workflow
华为AI实力!不用GPU,大模型每2秒吃透一道高数大题!
第一财经·2025-05-30 09:32

华为Pangu Ultra MoE大模型技术突破 - 实现国产算力与国产模型全流程自主可控训练闭环 昇腾Atlas 800T A2万卡集群MFU提升至41% 单CloudMatrix 384超节点吞吐达35K Tokens/s [2][3] - 首次披露昇腾CloudMatrix 384超节点上高效打通大稀疏比MoE强化学习后训练框架的关键技术 让以强化学习为核心的后训练进入超节点集群时代 [3][4] - 7180亿参数规模 61层Transformer结构 前3层稠密层后58层MoE层 隐层维度7680 配备256个路由专家和1个共享专家 专家隐层维度2048 [32] 技术痛点与解决方案 - 当前MoE预训练和强化学习后训练存在六大挑战:并行策略配置困难 All-to-All通信瓶颈 系统负载分布不均 算子调度开销过大 训练流程管理复杂 大规模扩展受限 [7][8] - 通过并行策略智能选择 计算通信深度融合 全局动态负载平衡等技术创新显著提升集群效率 建模仿真驱动智能并行优化确定最优部署配置:16路流水线并行 8路张量并行 32路专家并行 2路虚拟流水线并行 [11][12][13] - 创新设计分层All-to-All通信去冗余机制 专家并行通信开销降至<2% 采用EDP全局负载均衡优化策略 实现设备间计算负载精确平衡 [14][17] 昇腾单节点算力优化 - 通过昇腾架构深度适配的训练算子加速 关键算子性能显著跃升 Host-Device协同优化将MoE训练中Host-Bound占比控制在2%以下 [21][23] - 构建精密内存优化框架 实现70%激活值内存节省 微批处理规模提升至原来两倍 [24][25] - 采用RL Fusion训推共卡技术 支持训练推理共卡 全共卡等灵活部署模式 实现秒级训推状态转换 后训练集群利用率翻倍 [27][28] 强化学习后训练创新 - 设计准异步机制StaleSync 让不同RL阶段任务在陈旧度阈值内并行执行 系统整体训练吞吐提升50% [29] - 采用分布式数据队列DistQueue 有效缓解不同计算任务间数据阻塞 为后训练任务高效调度提供支持 [29] - 在昇腾CloudMatrix 384超节点集群后训练中 采用训练推理混合并行策略 实现每超节点35K Tokens/s高吞吐 支持高效扩展超过4K卡集群 [32][34]