公司战略定位与核心趋势 - 摩尔线程在MDC 2025大会上传递的核心趋势是,国产GPU公司正像真正的基础设施公司那样思考问题,而不仅仅是追求性能追赶 [2] - 公司被视为“中国版英伟达”,其创始人及团队拥有深厚的英伟达背景,公司行事风格与产品思路(如全功能GPU、开发者大会对标GTC)均与英伟达相似 [2] - 摩尔线程并非简单复刻英伟达,而是在用英伟达的方法论,结合中国面临的供应链不确定性、技术封锁和国产生态薄弱等独特产业条件,解决中国自己的算力问题 [3] - 公司的能力已从单卡扩展到万卡集群,关注点从追求性能转向追求稳定性、线性度和MFU等系统级指标,标志着向算力基础设施公司的转变 [3] 全功能GPU的战略意义与技术演进 - 公司坚持发展全功能GPU,其创新被视为一部算力进化史,GPU的计算边界从早期图形渲染持续拓展至通用并行计算、AI和科学计算 [5] - 未来五至十年的关键应用形态将集中在具身智能领域,这需要算力平台同时具备计算、仿真、图形与感知能力,单一功能加速器无法胜任 [5] - “3D + AI + HPC”的组合是全功能GPU自然演进的结果,使其成为支撑新一代科技发展的核心基础设施 [6] - 全功能GPU集成了四类核心计算引擎:AI计算引擎、3D图形渲染引擎、高性能计算与物理仿真引擎、智能视频编解码引擎,以统一支撑多样化计算需求 [6][7] MUSA统一计算架构与软件生态 - MUSA是公司自主研发的元计算统一计算架构,覆盖从芯片架构、指令集、编程模型到软件运行库的全栈技术体系,被视为公司的“第一产品” [7] - 一个完整的MUSA架构底层是全功能GPU,之上是硬件系统(如夸娥智算集群),再之上是包括加速库、调试工具和应用案例的全套软件栈 [7][8] - MUSA 5.0标志着架构步入成熟,原生MUSA C深度兼容TileLang、Triton,核心计算库muDNN的GEMM/FlashAttention效率超98%,通信效率达97%,编译器性能提升3倍 [10] - 公司计划逐步开源计算加速库、通信库及系统管理框架等核心组件,并推出MTX中间语言、muLang编程语言、MUSA-Q量子计算融合框架和muLitho计算光刻库 [10] - MUSA统一软件栈能够支持国际和国产的CPU系统及开发环境,覆盖“云边端”全系列产品,用同一套软件支撑不同硬件 [11] 新一代“花港”架构与芯片产品路线 - 公司发布了新一代全功能GPU架构“花港”,在计算密度、能效、精度支持、互联能力及图形技术等方面实现全面突破 [11] - “花港”架构核心特性包括:算力密度提升50%,支持从FP4到FP64的全精度计算,新增MTFP6/MTFP4及混合低精度支持 [11] - 架构集成新一代异步编程模型,并通过自研MTLink高速互联技术支持十万卡以上规模智算集群扩展 [11] - 架构内置AI生成式渲染架构,增强硬件光线追踪,完整支持DirectX 12 Ultimate,实现图形与AI深度融合 [12] - 架构基于全栈自研,具备安全可信能力,截至2025年6月30日,公司累计授权专利514项,其中发明专利468项 [12] - 基于“花港”架构,公司公布了两款未来芯片技术路线:“华山”专注AI训推一体与超大规模智能计算;“庐山”专攻高性能图形渲染 [12][14] - “庐山”图形芯片相比前代实现显著性能跨越:AI计算性能提升64倍,几何处理性能提升16倍,光线追踪性能提升50倍 [14] 夸娥智算集群与系统级能力 - 公司正式发布了夸娥万卡智算集群,具备全精度、全功能通用计算能力 [15] - 该万卡集群浮点运算能力达到10 Exa-Flops,在Dense大模型上训练算力利用率达60%,在MOE大模型上达40%,有效训练时间占比超90%,训练线性扩展效率达95% [15] - 在训练侧,基于原生FP8能力完整复现顶尖大模型训练流程,并在多项关键精度指标上达到国际主流水平,Flash Attention算力利用率超95% [15] - 在推理侧,经过与硅基流动的联合优化,在DeepSeek R1 671B全量模型上,MTT S5000单卡实现Prefill吞吐突破4000 tokens/s、Decode吞吐突破1000 tokens/s [15] - 公司发布了MTT C256超节点的架构规划,采用计算与交换一体化的高密设计,旨在为下一代超大规模智算中心构建硬件基石 [16]
摩尔线程,走英伟达的路,也走自己的路