文章核心观点 - 随着大模型算力需求进入10^24至10^26 FLOPs量级,万卡乃至更大规模的GPU集群已成为大模型训练的必要基础设施,其核心挑战从“能跑”转向如何实现“可持续稳定地跑”[4][7] - 大规模训练的效率不仅取决于单卡性能,更取决于训练周期压缩、系统长期稳定性和支撑高频迭代的工程效率,其中非训练环节(如检查点、故障恢复)的时间压缩至关重要[4][12] - 在万卡规模下,节点故障、性能抖动、通信与存储瓶颈等问题会被显著放大,静默数据错误、Hang、Inf/NaN等稳定性问题成为关键挑战,需要通过系统化的软件栈、自动化工具和可观测体系来解决[4][18][20] 大模型算力需求与集群规模趋势 - 主流大模型算力需求巨大,国内已开源的万亿参数模型如Kimi K2计算量约为3×10^24 FLOPs,百灵模型约为6×10^24 FLOPs[8][9] - 以当前一代训练卡估算,完成3×10^24 FLOPs的计算,千卡集群需173天,五千卡集群需40天,万卡集群仅需23天,训练时间成为模型竞争的关键因素[8][9] - 海外头部公司已建设十万卡甚至二十万卡规模的集群,更大规模集群是未来确定性趋势,万卡训练正从前沿探索转变为大模型研发的基础设施能力[4][7][9] 万卡训练的系统工程与效率优化 - 公司构建了从底层集群调度、兼容CUDA的MUSA平台、适配优化主流训练框架(如MegatronLM、DeepSpeed)的训练套件,到上层Model Studio及自动化工具的全栈软件体系[10] - 采用SimuMax软件进行训练前模拟,基于理论计算估算不同模型和集群规模下的训练性能,以低成本确定并行策略和超参,避免高成本的反复实际拉起试验[13] - 实施异步Checkpoint技术,将数千亿参数模型的检查点写入时间压缩至秒级,并采用分片写入与P2P加载机制,可将检查点频率提升至每十分钟一次,极大减少训练中断时间[17] 大规模训练稳定性挑战与解决方案 - 慢节点会拖慢整个集群,通过起飞检查与运行时监控结合,利用聚类分析自动识别并剔除异常慢节点,实现全自动化治理[19] - 静默数据错误因硬件故障、ECC未开启或传输误码导致,难以检测,轻微错误影响不明显,严重错误会导致Loss曲线异常尖峰,致命错误则引发NaN/Inf导致训练中断[1][20][22] - 针对静默错误,在硬件验收和起飞检查阶段进行多算子覆盖的压力测试,并重点监控温度、电压等关键硬件指标以进行预防[22] - Hang问题会导致整个集群停滞,通过分布式分析结合通信库日志比对来定位异常节点,通常重启可恢复,频繁Hang的节点需被剔除[22][23] - Inf/NaN问题具有传播性,解决方案是重点定位其最早出现的位置和时间点,找出频繁触发异常的算子或阶段[24] 可观测性与自动化运维体系 - 在训练启动前实施起飞检查,运行特定基准测试全面检查计算节点、网络、存储及调度节点,并自动剔除异常节点,实现无人值守的训练启动[15] - 引入分布式Profiling能力,可在不中断训练的情况下按需采集性能数据,进行算子级火焰图分析,并支持多节点数据汇聚联合分析[26][27] - 建立统一的可观测平台,覆盖大量系统与训练指标,通过指标异常检测和联合分析捕获问题,曾快速定位因个别节点超温导致的异常并追溯到散热原因[28]
摩尔线程王华:万卡训练中,最危险的往往是「不报错」丨GAIR 2025
雷峰网·2025-12-18 00:45