MDC2025:全功能GPU路线清晰,MUSA生态进入规模化验证阶段
2025-12-23 05:14

报告行业投资评级 * 报告未明确给出对摩尔线程或相关行业的投资评级 [1][8] 报告核心观点 * 报告认为,摩尔线程在首届MUSA开发者大会上展示了其全功能GPU技术路线图的清晰度与MUSA生态系统的规模化验证进展,公司在坚持全功能GPU路线、构建统一软件生态和拓展前沿应用方面展现出长期潜力,但同时也面临更高的研发与工程复杂度 [1][2][10] 根据相关目录分别进行总结 软件生态 (MUSA 5.0) * MUSA 5.0已形成从指令集、编程模型、编译器到通信库的全栈体系,工程化表现接近国际主流水平 [2][10] * 开发体验:原生支持MUSA C,同时兼容TileLang、Triton,降低了CUDA的迁移门槛 [2][14] * 性能指标:muDNN中GEMM/FlashAttention效率超过98%,通信效率约97%,编译器性能提升约3倍 [2][14] * 生态策略:明确了逐步开源计算库、通信库、系统管理框架等核心组件的路线图 [2][14] * 前沿扩展:布局了MTX中间语言、muLang、MUSA-Q、muLitho等,覆盖渲染、量子计算与计算光刻领域 [2][14] 硬件架构与产品路线 (花港架构) * 新一代全功能GPU架构“花港”在算力密度、能效、精度覆盖与互联能力上全面升级,支持FP4至FP64全精度计算,并引入混合低精度(MTFP6/MTFP4) [2][10] * 花港架构强调异步编程模型与超大规模互联(MTLink),为万卡乃至十万卡集群提供扩展基础 [2][10] * 公司基于花港架构给出了清晰的产品分化路径:“华山”面向AI训推一体与超大规模智算,定位下一代AI工厂底座;“庐山”专注高性能图形渲染,在几何、AI、光追等指标上实现数量级提升,全面对标3A游戏与专业图形创作需求 [4][14] 系统级工程能力 (夸娥集群) * “夸娥”万卡智算集群是对外展示工程能力的重要里程碑,在Dense模型与MoE模型上分别实现约60%与约40%的MFU(模型浮点利用率),线性扩展效率约95%,有效训练时间占比超过90% [3][11] * 训练侧完整复现了FP8训练流程;推理侧与硅基流动合作,在DeepSeek R1 671B模型上实现单卡Prefill(预填充)大于4000 tokens/s、Decode(解码)大于1000 tokens/s的吞吐量 [3][11] * 公司公布了MTT C256超节点的前瞻规划,强调计算与交换一体化的高密架构,为下一代超大规模智算中心做准备 [3][11] 前沿应用布局 (具身智能) * 公司发布MT Lambda具身智能仿真训练平台,以MUSA统一架构为底座,深度融合物理引擎、图形渲染引擎与AI计算引擎,构建覆盖开发、仿真与训练的全栈式技术体系 [3][12] * 该平台通过高精度物理仿真与真实感渲染环境,加速具身智能模型在复杂真实世界场景中的学习与泛化能力,并与公司GPU算力、端云协同方案形成联动,为机器人、自动化与智能体等应用提供训练基础设施 [3][12] 公司战略定位 * 在国产GPU厂商中,摩尔线程是少数坚定走“全功能GPU”而非“单一AI加速器”路线的公司,未在AI浪潮中放弃图形与通用计算,这在长期生态与开发者黏性上具备更高上限,但同时意味着更高的研发与工程复杂度 [2][10]