摩尔线程，走英伟达的路，也走自己的路

公司战略定位与核心趋势 - 摩尔线程在MDC 2025大会上传递的核心趋势是，国产GPU公司正像真正的基础设施公司那样思考问题，而不仅仅是追求性能追赶 [2] - 公司被视为“中国版英伟达”，其创始人及团队拥有深厚的英伟达背景，公司行事风格与产品思路（如全功能GPU、开发者大会对标GTC）均与英伟达相似 [2] - 摩尔线程并非简单复刻英伟达，而是在用英伟达的方法论，结合中国面临的供应链不确定性、技术封锁和国产生态薄弱等独特产业条件，解决中国自己的算力问题 [3] - 公司的能力已从单卡扩展到万卡集群，关注点从追求性能转向追求稳定性、线性度和MFU等系统级指标，标志着向算力基础设施公司的转变 [3] 全功能GPU的战略意义与技术演进 - 公司坚持发展全功能GPU，其创新被视为一部算力进化史，GPU的计算边界从早期图形渲染持续拓展至通用并行计算、AI和科学计算 [5] - 未来五至十年的关键应用形态将集中在具身智能领域，这需要算力平台同时具备计算、仿真、图形与感知能力，单一功能加速器无法胜任 [5] - “3D + AI + HPC”的组合是全功能GPU自然演进的结果，使其成为支撑新一代科技发展的核心基础设施 [6] - 全功能GPU集成了四类核心计算引擎：AI计算引擎、3D图形渲染引擎、高性能计算与物理仿真引擎、智能视频编解码引擎，以统一支撑多样化计算需求 [6][7] MUSA统一计算架构与软件生态 - MUSA是公司自主研发的元计算统一计算架构，覆盖从芯片架构、指令集、编程模型到软件运行库的全栈技术体系，被视为公司的“第一产品” [7] - 一个完整的MUSA架构底层是全功能GPU，之上是硬件系统（如夸娥智算集群），再之上是包括加速库、调试工具和应用案例的全套软件栈 [7][8] - MUSA 5.0标志着架构步入成熟，原生MUSA C深度兼容TileLang、Triton，核心计算库muDNN的GEMM/FlashAttention效率超98%，通信效率达97%，编译器性能提升3倍 [10] - 公司计划逐步开源计算加速库、通信库及系统管理框架等核心组件，并推出MTX中间语言、muLang编程语言、MUSA-Q量子计算融合框架和muLitho计算光刻库 [10] - MUSA统一软件栈能够支持国际和国产的CPU系统及开发环境，覆盖“云边端”全系列产品，用同一套软件支撑不同硬件 [11] 新一代“花港”架构与芯片产品路线 - 公司发布了新一代全功能GPU架构“花港”，在计算密度、能效、精度支持、互联能力及图形技术等方面实现全面突破 [11] - “花港”架构核心特性包括：算力密度提升50%，支持从FP4到FP64的全精度计算，新增MTFP6/MTFP4及混合低精度支持 [11] - 架构集成新一代异步编程模型，并通过自研MTLink高速互联技术支持十万卡以上规模智算集群扩展 [11] - 架构内置AI生成式渲染架构，增强硬件光线追踪，完整支持DirectX 12 Ultimate，实现图形与AI深度融合 [12] - 架构基于全栈自研，具备安全可信能力，截至2025年6月30日，公司累计授权专利514项，其中发明专利468项 [12] - 基于“花港”架构，公司公布了两款未来芯片技术路线：“华山”专注AI训推一体与超大规模智能计算；“庐山”专攻高性能图形渲染 [12][14] - “庐山”图形芯片相比前代实现显著性能跨越：AI计算性能提升64倍，几何处理性能提升16倍，光线追踪性能提升50倍 [14] 夸娥智算集群与系统级能力 - 公司正式发布了夸娥万卡智算集群，具备全精度、全功能通用计算能力 [15] - 该万卡集群浮点运算能力达到10 Exa-Flops，在Dense大模型上训练算力利用率达60%，在MOE大模型上达40%，有效训练时间占比超90%，训练线性扩展效率达95% [15] - 在训练侧，基于原生FP8能力完整复现顶尖大模型训练流程，并在多项关键精度指标上达到国际主流水平，Flash Attention算力利用率超95% [15] - 在推理侧，经过与硅基流动的联合优化，在DeepSeek R1 671B全量模型上，MTT S5000单卡实现Prefill吞吐突破4000 tokens/s、Decode吞吐突破1000 tokens/s [15] - 公司发布了MTT C256超节点的架构规划，采用计算与交换一体化的高密设计，旨在为下一代超大规模智算中心构建硬件基石 [16]