摩尔线程发布“花港”架构,力推国产万卡智算生态

核心观点 - 摩尔线程在首届MUSA开发者大会上发布了下一代全功能GPU架构“花港”及基于该架构的多款芯片与产品,旨在通过架构创新提升算力密度与效能,并展示了其在万卡智算集群、软件生态及前沿技术领域的全面布局,以推动国产GPU生态发展 [1][2][4] 公司技术发布与产品 - 发布新一代全功能GPU架构“花港”,采用新指令集与异步编程模型,在相同工艺下算力密度提升50%,效能提升10倍,支持从FP4到FP64全精度计算,并通过自研MTLink技术支持十万卡以上智算集群扩展,单个节点支持1024卡 [1][2] - 基于“花港”架构推出“华山”芯片,面向AI训推一体与超大规模智能计算,其浮点算力、访存带宽、高速互联带宽指标介于英伟达Blackwell与Hopper架构之间,访存容量优于两者 [4] - 基于“花港”架构同步推出“庐山”芯片,侧重高性能图形渲染,其AI计算性能提升64倍,几何处理性能提升16倍,光线追踪性能提升50倍,并增强了纹理填充和显存容量 [4] - 发布“夸娥”万卡智算集群,浮点运算能力达10 Exa-Flops,在万卡规模下对Dense大模型训练算力利用率(MFU)为60%,对MoE大模型算力利用率为40%,有效训练时间占比超90%,训练线性扩展效率为95% [4] - 在推理性能实测中,与硅基流动合作优化DeepSeek R1 671B全量模型,MTT S5000单卡Prefill吞吐超4000 tokens/s,Decode吞吐超1000 tokens/s [4] - 发布搭载自研“长江”SoC芯片的MTT AIBOOK笔记本电脑,端侧AI算力为50 TOPS,并预告了基于同一SoC的迷你计算设备MTT AICube [7] - 在图形技术领域,公司支持主流API并完成国产适配,即将完整支持DirectX 12 Ultimate,推出AI生成式渲染技术MTAGR 1.0,并发布具身智能仿真训练平台MT Lambda,计划于2026年Q1开源关键仿真加速组件 [8] 公司软件生态与研发进展 - 升级MUSA统一计算架构至5.0版本,其核心计算库muDNN的GEMM和FlashAttention效率超98%,通信效率达97%,编译器性能提升3倍,并计划逐步开源计算加速库、通信库及系统管理框架等核心组件 [7] - 披露了兼容跨代GPU指令架构的中间语言MTX、量子计算融合框架MUSA-Q以及计算光刻库muLitho等前瞻技术 [7] - 公司提及在科学智能(AI4S)、量子科技、AI for 6G等前沿交叉领域的布局,并宣布建设MUSA生态中心,启动开发者计划 [8] 公司发展历程与市场表现 - 公司过去四年保持每年迭代一个芯片架构的节奏:2022年“苏堤”架构解决信创PC GPU国产化;2023年“春晓”架构带来量产游戏显卡S80和云端渲染芯片S3000;2024年“曲院”架构S4000开启AI训推一体并实现千卡集群;今年基于“平湖”架构的S5000已建成万卡智算集群 [6][7] - 公司于2020年10月成立,核心团队包括原英伟达中国区总经理张建中及CTO张钰勃,技术路线对标英伟达通用GPU路径 [9] - 公司于12月5日以114.28元/股登陆科创板,截至12月19日收盘,股价累计涨幅达481%,报664.10元/股,市值约3121.46亿元 [9] 行业背景与机遇 - 受国际环境对高端芯片进口限制影响,国产AI芯片市场空间有所增长,行业受到资本市场大力追捧 [9]