Workflow
GPU加速计算平台
icon
搜索文档
直击WAIC丨如何缓解AI训练“效率瓶颈”?摩尔线程张建中:打造AGI“超级工厂”
新浪科技· 2025-07-27 04:12
2025世界人工智能大会专题 - 2025世界人工智能大会(WAIC 2025)于7月26-28日在上海举办 [1] - 摩尔线程首次提出"AI工厂"理念,旨在构建新一代AI训练基础设施,为AGI时代打造生产先进模型的"超级工厂" [1] AI工厂理念与技术架构 - "AI工厂"需要实现从底层芯片架构创新到集群整体架构优化的全面升级,推动AI训练从千卡级向万卡级乃至十万卡级规模演进 [3] - AI工厂效率公式:生产效率=加速计算通用性×单芯片有效算力×单节点效率×集群效率×集群稳定性 [3] - 公司将以GPU通用算力为基石,通过先进架构、芯片算力等多方面技术创新提升训练效率与可靠性 [3] 芯片与计算性能 - GPU单芯片基于MUSA架构突破性设计,集成AI计算加速、图形渲染等多种能力,适配多样化应用场景 [3] - 支持从FP64至INT8的完整精度谱系,通过FP8混合精度技术实现主流大模型训练20%~30%的性能跃升 [3] 内存与通信优化 - 内存系统采用多精度近存规约引擎等技术,实现50%带宽节省和60%延迟降低 [4] - 独创ACE异步通信引擎减少15%计算资源损耗,MTLink2.0互联技术提供高出国内行业平均水平60%的带宽 [4] 集群稳定性技术 - 创新推出零中断容错技术,故障时仅隔离受影响节点组,其余节点继续训练,备机无缝接入 [4] - 该方案使KUAE集群有效训练时间占比超99%,大幅降低恢复开销 [4]