摩尔线程:五年“长考”,筑起全功能算力的硬核长城
半导体行业观察·2025-12-26 01:57

文章核心观点 - 国产GPU厂商摩尔线程正通过构建软硬深度融合的统一架构MUSA和繁荣的开发者生态,以突破长期由英伟达CUDA主导的行业壁垒,其战略核心是打造“全功能GPU”作为通用算力底座,并已取得显著的技术与生态进展 [1][3][12] MUSA统一系统架构 - MUSA是摩尔线程自主研发的元计算统一系统架构,覆盖从芯片架构、指令集、编程模型到软件运行库及驱动程序框架的全栈技术体系,而不仅仅是一个软件包 [4][5][6] - MUSA定义了从芯片设计到软件生态的统一技术标准,是类似于Android或Windows的平台,所有公司软硬件产品均基于此架构 [8] - MUSA 5.0软件栈全面升级,实现了对全功能GPU四大引擎的深度适配,为AI训练、3D图形渲染到科学计算等全场景应用提供统一技术底座 [35][36][37] - MUSA 5.0的核心竞争力在于“无边界”适配能力,完美兼容国际主流与国产CPU操作系统及开发环境,计划于明年上半年规模化落地 [37] 全功能GPU战略 - 公司坚持“全功能GPU”路线,旨在打造一个能同时实现图形图像处理、AI张量计算、物理仿真和超高清视频编解码等多种任务协同处理的“万能算力底座” [9][12] - 全功能GPU的优势在于“图算结合”,能够跨域支持多模态未来对AI计算、图形渲染和视频传输的多样化需求,无论计算范式如何变迁都能保持灵活性 [14][15] - 全功能GPU不仅面向AI模型训练和智算中心,也能支撑游戏图形、视频渲染等大众级应用场景,具备高度通用性与生态承载力 [12] 芯片架构与产品进展 - 公司自2022年起保持每年发布一代新架构的节奏,五年推出五代架构,最新一代为“花港”架构 [16][17] - “花港”架构基于新一代指令集,算力密度提升50%,计算能效实现10倍提升,新增MTFP6/MTFP4及混合低精度端到端加速技术 [19] - “花港”架构提供新一代异步编程模型加速技术,并集成自研高速互联MTLink技术,可支持十万卡以上规模智算集群 [19] - 基于“花港”架构,公司正在研发两款GPU芯片:“华山”和“庐山” [23] - “华山”是AI训推一体芯片,对标国外顶尖产品,集成新一代Tensor Core、专为LLM定制的加速引擎及ACE2.0异步通信引擎,支持超十万卡级别的“AI工厂”技术 [24][25][27] - “庐山”是高性能图形渲染芯片,与S80相比,3A游戏性能提升15倍,AI计算性能提升64倍,几何处理性能提升16倍,并内置AI生成式渲染功能 [28][30] 大规模集群与AI工厂 - 公司推出超十万卡级AI工厂技术,突破了传统GPU集群瓶颈,支持Scale-up系统可扩展至1024个GPU [32][34] - 新一代MTLink 4.0技术支持多种协议兼容,具备1314 GB/s的片间互联带宽 [34] - 通过ACE 2.0异步通信引擎、RAS 2.0容错能力及MTT C256超节点解决方案,确保超大规模集群的高效、稳定与高可用性 [34] 开发者生态建设 - 公司认识到开发者生态是决定芯片厂商生死存亡的关键,正致力于解决迁移成本高、工具链不成熟等痛点,目标是让国产GPU从“能用”到“好用”再到“愿意用” [45][46] - MUSA软件栈的策略是先对齐主流生态的使用习惯,降低开发者学习与迁移成本,同时通过AIBOOK等工具降低生态参与门槛 [47] - 为发挥底层架构创新,公司提出两条路径:一是通过高层抽象的DSL/编译技术将硬件优势显性化;二是与开发者及平台伙伴深度协作进行生态共建 [49][51] - 生态共建已见成效,例如与硅基流动对MTT S5000深度优化后,在DeepSeek 671B全量模型推理中,单卡Prefill吞吐突破4000 tokens/s,Decode吞吐突破1000 tokens/s [51] 具身智能新赛道 - 公司入局具身智能领域,发布仿真训练平台MT Lambda,整合物理、渲染与AI三大核心引擎,提供从场景构建到仿真训练的高效工作流 [38][39] - 公司首颗AI SoC芯片“长江”正式亮相,集成了CPU、GPU、NPU、VPU、DPU、DSP和ISP等多维算力核心,为边缘侧提供强悍计算内核 [39] - 公司推出完整解决方案MT Robot,通过KUAE智算集群作为“云端大脑”和内置“长江”芯片的MTT E300模组作为“端侧小脑”,实现从虚拟训练到物理落地的全栈路径 [42][43] 公司技术积累与投入 - 过去五年,公司已推出5颗芯片,研发投入超43亿元,研发人员占比高达77%,活跃开发者生态超20万 [3] - 截至今年6月30日,公司已申请专利1000余件,其中授权专利500余件,发明专利468件,专利数量在国内GPU企业中领先 [21] - “花港”架构集成了自研的4层安全架构(安全域、信任域、保护域和功能域),为芯片提供安全守护 [21]