Workflow
MUSA
icon
搜索文档
摩尔线程:五年“长考”,筑起全功能算力的硬核长城
半导体行业观察· 2025-12-26 01:57
文章核心观点 - 国产GPU厂商摩尔线程正通过构建软硬深度融合的统一架构MUSA和繁荣的开发者生态,以突破长期由英伟达CUDA主导的行业壁垒,其战略核心是打造“全功能GPU”作为通用算力底座,并已取得显著的技术与生态进展 [1][3][12] MUSA统一系统架构 - MUSA是摩尔线程自主研发的元计算统一系统架构,覆盖从芯片架构、指令集、编程模型到软件运行库及驱动程序框架的全栈技术体系,而不仅仅是一个软件包 [4][5][6] - MUSA定义了从芯片设计到软件生态的统一技术标准,是类似于Android或Windows的平台,所有公司软硬件产品均基于此架构 [8] - MUSA 5.0软件栈全面升级,实现了对全功能GPU四大引擎的深度适配,为AI训练、3D图形渲染到科学计算等全场景应用提供统一技术底座 [35][36][37] - MUSA 5.0的核心竞争力在于“无边界”适配能力,完美兼容国际主流与国产CPU操作系统及开发环境,计划于明年上半年规模化落地 [37] 全功能GPU战略 - 公司坚持“全功能GPU”路线,旨在打造一个能同时实现图形图像处理、AI张量计算、物理仿真和超高清视频编解码等多种任务协同处理的“万能算力底座” [9][12] - 全功能GPU的优势在于“图算结合”,能够跨域支持多模态未来对AI计算、图形渲染和视频传输的多样化需求,无论计算范式如何变迁都能保持灵活性 [14][15] - 全功能GPU不仅面向AI模型训练和智算中心,也能支撑游戏图形、视频渲染等大众级应用场景,具备高度通用性与生态承载力 [12] 芯片架构与产品进展 - 公司自2022年起保持每年发布一代新架构的节奏,五年推出五代架构,最新一代为“花港”架构 [16][17] - “花港”架构基于新一代指令集,算力密度提升50%,计算能效实现10倍提升,新增MTFP6/MTFP4及混合低精度端到端加速技术 [19] - “花港”架构提供新一代异步编程模型加速技术,并集成自研高速互联MTLink技术,可支持十万卡以上规模智算集群 [19] - 基于“花港”架构,公司正在研发两款GPU芯片:“华山”和“庐山” [23] - “华山”是AI训推一体芯片,对标国外顶尖产品,集成新一代Tensor Core、专为LLM定制的加速引擎及ACE2.0异步通信引擎,支持超十万卡级别的“AI工厂”技术 [24][25][27] - “庐山”是高性能图形渲染芯片,与S80相比,3A游戏性能提升15倍,AI计算性能提升64倍,几何处理性能提升16倍,并内置AI生成式渲染功能 [28][30] 大规模集群与AI工厂 - 公司推出超十万卡级AI工厂技术,突破了传统GPU集群瓶颈,支持Scale-up系统可扩展至1024个GPU [32][34] - 新一代MTLink 4.0技术支持多种协议兼容,具备1314 GB/s的片间互联带宽 [34] - 通过ACE 2.0异步通信引擎、RAS 2.0容错能力及MTT C256超节点解决方案,确保超大规模集群的高效、稳定与高可用性 [34] 开发者生态建设 - 公司认识到开发者生态是决定芯片厂商生死存亡的关键,正致力于解决迁移成本高、工具链不成熟等痛点,目标是让国产GPU从“能用”到“好用”再到“愿意用” [45][46] - MUSA软件栈的策略是先对齐主流生态的使用习惯,降低开发者学习与迁移成本,同时通过AIBOOK等工具降低生态参与门槛 [47] - 为发挥底层架构创新,公司提出两条路径:一是通过高层抽象的DSL/编译技术将硬件优势显性化;二是与开发者及平台伙伴深度协作进行生态共建 [49][51] - 生态共建已见成效,例如与硅基流动对MTT S5000深度优化后,在DeepSeek 671B全量模型推理中,单卡Prefill吞吐突破4000 tokens/s,Decode吞吐突破1000 tokens/s [51] 具身智能新赛道 - 公司入局具身智能领域,发布仿真训练平台MT Lambda,整合物理、渲染与AI三大核心引擎,提供从场景构建到仿真训练的高效工作流 [38][39] - 公司首颗AI SoC芯片“长江”正式亮相,集成了CPU、GPU、NPU、VPU、DPU、DSP和ISP等多维算力核心,为边缘侧提供强悍计算内核 [39] - 公司推出完整解决方案MT Robot,通过KUAE智算集群作为“云端大脑”和内置“长江”芯片的MTT E300模组作为“端侧小脑”,实现从虚拟训练到物理落地的全栈路径 [42][43] 公司技术积累与投入 - 过去五年,公司已推出5颗芯片,研发投入超43亿元,研发人员占比高达77%,活跃开发者生态超20万 [3] - 截至今年6月30日,公司已申请专利1000余件,其中授权专利500余件,发明专利468件,专利数量在国内GPU企业中领先 [21] - “花港”架构集成了自研的4层安全架构(安全域、信任域、保护域和功能域),为芯片提供安全守护 [21]
摩尔线程,走英伟达的路,也走自己的路
钛媒体APP· 2025-12-22 01:37
公司战略定位与核心趋势 - 摩尔线程在MDC 2025大会上传递的核心趋势是,国产GPU公司正像真正的基础设施公司那样思考问题,而不仅仅是追求性能追赶 [2] - 公司被视为“中国版英伟达”,其创始人及团队拥有深厚的英伟达背景,公司行事风格与产品思路(如全功能GPU、开发者大会对标GTC)均与英伟达相似 [2] - 摩尔线程并非简单复刻英伟达,而是在用英伟达的方法论,结合中国面临的供应链不确定性、技术封锁和国产生态薄弱等独特产业条件,解决中国自己的算力问题 [3] - 公司的能力已从单卡扩展到万卡集群,关注点从追求性能转向追求稳定性、线性度和MFU等系统级指标,标志着向算力基础设施公司的转变 [3] 全功能GPU的战略意义与技术演进 - 公司坚持发展全功能GPU,其创新被视为一部算力进化史,GPU的计算边界从早期图形渲染持续拓展至通用并行计算、AI和科学计算 [5] - 未来五至十年的关键应用形态将集中在具身智能领域,这需要算力平台同时具备计算、仿真、图形与感知能力,单一功能加速器无法胜任 [5] - “3D + AI + HPC”的组合是全功能GPU自然演进的结果,使其成为支撑新一代科技发展的核心基础设施 [6] - 全功能GPU集成了四类核心计算引擎:AI计算引擎、3D图形渲染引擎、高性能计算与物理仿真引擎、智能视频编解码引擎,以统一支撑多样化计算需求 [6][7] MUSA统一计算架构与软件生态 - MUSA是公司自主研发的元计算统一计算架构,覆盖从芯片架构、指令集、编程模型到软件运行库的全栈技术体系,被视为公司的“第一产品” [7] - 一个完整的MUSA架构底层是全功能GPU,之上是硬件系统(如夸娥智算集群),再之上是包括加速库、调试工具和应用案例的全套软件栈 [7][8] - MUSA 5.0标志着架构步入成熟,原生MUSA C深度兼容TileLang、Triton,核心计算库muDNN的GEMM/FlashAttention效率超98%,通信效率达97%,编译器性能提升3倍 [10] - 公司计划逐步开源计算加速库、通信库及系统管理框架等核心组件,并推出MTX中间语言、muLang编程语言、MUSA-Q量子计算融合框架和muLitho计算光刻库 [10] - MUSA统一软件栈能够支持国际和国产的CPU系统及开发环境,覆盖“云边端”全系列产品,用同一套软件支撑不同硬件 [11] 新一代“花港”架构与芯片产品路线 - 公司发布了新一代全功能GPU架构“花港”,在计算密度、能效、精度支持、互联能力及图形技术等方面实现全面突破 [11] - “花港”架构核心特性包括:算力密度提升50%,支持从FP4到FP64的全精度计算,新增MTFP6/MTFP4及混合低精度支持 [11] - 架构集成新一代异步编程模型,并通过自研MTLink高速互联技术支持十万卡以上规模智算集群扩展 [11] - 架构内置AI生成式渲染架构,增强硬件光线追踪,完整支持DirectX 12 Ultimate,实现图形与AI深度融合 [12] - 架构基于全栈自研,具备安全可信能力,截至2025年6月30日,公司累计授权专利514项,其中发明专利468项 [12] - 基于“花港”架构,公司公布了两款未来芯片技术路线:“华山”专注AI训推一体与超大规模智能计算;“庐山”专攻高性能图形渲染 [12][14] - “庐山”图形芯片相比前代实现显著性能跨越:AI计算性能提升64倍,几何处理性能提升16倍,光线追踪性能提升50倍 [14] 夸娥智算集群与系统级能力 - 公司正式发布了夸娥万卡智算集群,具备全精度、全功能通用计算能力 [15] - 该万卡集群浮点运算能力达到10 Exa-Flops,在Dense大模型上训练算力利用率达60%,在MOE大模型上达40%,有效训练时间占比超90%,训练线性扩展效率达95% [15] - 在训练侧,基于原生FP8能力完整复现顶尖大模型训练流程,并在多项关键精度指标上达到国际主流水平,Flash Attention算力利用率超95% [15] - 在推理侧,经过与硅基流动的联合优化,在DeepSeek R1 671B全量模型上,MTT S5000单卡实现Prefill吞吐突破4000 tokens/s、Decode吞吐突破1000 tokens/s [15] - 公司发布了MTT C256超节点的架构规划,采用计算与交换一体化的高密设计,旨在为下一代超大规模智算中心构建硬件基石 [16]
大赚667倍,摩尔线程投资人赢麻了
华尔街见闻· 2025-10-13 10:30
公司概况与上市进程 - 摩尔线程是一家专注于全功能GPU的芯片设计公司,采用自研架构MUSA,并强调与英伟达CUDA生态的兼容性[7] - 公司科创板IPO申请于9月26日通过上市委会议审议并提交注册,从6月30日获受理到完成过会仅用时88天,远快于行业常见的200天左右[4] - 创始人张建中拥有丰富的GPU行业经验,曾在英伟达任职14年并担任全球副总裁兼大中华区总经理,于2020年创立摩尔线程[4][7] 技术路线与产品布局 - 公司走“英伟达式”全功能GPU路线,产品覆盖消费类显卡、企业级专业图形加速卡、服务器智算卡和图形加速卡以及SoC产品[8] - 自研架构MUSA是国内少数支持FP4至FP64全精度计算的GPU架构,并通过独创工具实现英伟达CUDA代码的自动转换以降低用户切换成本[7] - MTT S80显卡的单精度浮点算力性能已接近英伟达RTX 3060水平,但整体性能与英伟达仍有差距[8] 财务表现与研发投入 - 2022年至2024年公司累计研发投入为38.1亿元,近三年累计亏损超50亿元[8] - 2024年公司实现营收4.32亿元,2025年上半年营收达7.02亿元,超过2022至2024年营收总和[14] - AI智算产品成为核心收入来源,2025年上半年收入占比达94.85%,其毛利率在2024年高达90.7%,带动公司总毛利率从2023年的26%升至2024年的71%[14] 融资历程与股东回报 - 公司在5年内完成7轮融资,累计融资金额超百亿元,投资方包括中国移动、深创投、红杉资本等众多国资和风投机构[10] - IPO发行前公司融资估值达298.45亿元,创始人张建中直接和间接控股36.36%,对应股权价值约107亿元[12] - 早期投资方沛县乾曜初始投资190.4762万元,目前持股价值约12.68亿元,投资回报约667倍[12] 市场地位与行业竞争 - 公司AI智算、图形加速及智能SoC产品在2024年于国内相应细分领域的市场占有率均不足1%[16] - 公司被市场与寒武纪对比,寒武纪2024年营收为11.74亿元(约为摩尔线程的2.7倍),但市值已超5000亿元[14][15] - 国产GPU领域竞争加剧,燧原科技、壁仞科技、沐曦股份等其他“国产GPU四小龙”成员也在积极推进IPO进程[16]
摩根士丹利:追踪中国半导体国产化进程-评估国内人工智能 GPU 的自给自足程度
摩根· 2025-05-06 07:05
报告行业投资评级 - 行业评级为In-Line,分析师预计行业覆盖范围在未来12 - 18个月的表现与相关广泛市场基准一致 [6][93] 报告的核心观点 - 中国半导体自给率提升至24%,高于预期,主要得益于政府补贴、库存消化和产能提升 [3] - 预计2027年中国AI GPU自给率达82%,云AI市场规模将达480亿美元 [2][17] - 内存、图像传感器和功率半导体自给率超预期,设备和EDA领域进展低于预期 [8] - 对中芯国际和华大九天给予Equal-weight评级,看好中国晶圆制造设备制造商 [4] 根据相关目录分别进行总结 中国半导体自给率情况 - 2024年中国半导体自给率约24%,较2023年的20%提升4个百分点,市场规模约1830亿美元,占全球需求29% [3] - 预计到2027年,中国半导体自给率将达30% [11] 中国AI GPU自给率分析 - 2024年中国AI GPU自给率为34%,预计2027年将达82% [2][17] - 2024 - 2027年云AI市场规模预计以28%的复合年增长率增长,2027年将达2390亿美元,中国占20%,约480亿美元 [2] - 本地GPU芯片主要由中芯国际采用7nm或N + 2节点工艺制造,中芯国际可为关键客户的GPU分配26k wpm产能,假设良率为30 - 50%,预计2027年中国本地GPU自给率将达82% [2][18] 中国半导体各细分领域本地化进展 - 内存方面,长鑫存储和长江存储分别扩产48k wpm和40k wpm,产品质量提升 [8] - 图像传感器和功率半导体领域,本地供应商受益于电动汽车增长和市场份额提升 [8] - 设备和EDA领域进展低于预期,尽管中国半导体设备公司增长约35%,但总需求增长也达21%,自给率提升略低于预期;华大九天在关键客户中的市场份额有意义,但中小设计公司采用本地EDA工具的意愿不强 [8] 本地化新闻 - 华为将在2025年下半年量产Ascend 920芯片,主要晶圆供应商可能是中芯国际,该芯片有望替代H20 [25] - 华为已售出超10套CloudMatrix 384,每套售价约6000万元人民币(820万美元),高于英伟达的NVL72 [26] - 摩尔线程的MUSA软件栈浮出水面,可支持CUDA代码移植,有助于构建本地GPU编程生态系统 [27] 中国半导体设备进口情况 - 2025年3月中国半导体设备进口额为29亿美元,同比下降10%,3个月移动平均同比增长率从2月的17%降至 - 2% [28] - 从各地区进口情况看,从美国进口下降最多,同比下降35%,从荷兰进口同比下降22%,从日本进口相对稳定,同比下降6% [28] 月度表现和催化剂 - 过去一个月,模拟和成熟节点代工厂表现出色,苹果供应链股票表现不佳 [33] - 表现出色的公司有华虹半导体(+15.6%)、圣邦股份(+13.9%)、兆易创新(+9.4%),表现不佳的公司有环旭电子(-15.6%)、盛美上海(-14.8%)、芯海科技(-8.4%) [33] 相关研究报告 - 涵盖AI半导体、模拟、云半导体、EDA & IP、代工、后端、FPGA、MCU、功率半导体与碳化硅、RF半导体、半导体设备等多个领域的研究报告 [46][47][48] 估值方法和风险 - 对北方华创、中芯国际、华大九天、盛美上海、ACM Research等公司采用剩余收益模型进行估值,并分析了上行和下行风险 [57][58][64] 行业覆盖公司评级 - 报告对多家公司给出了评级,如对ACM Research、先进微系统等公司给予Overweight评级,对中芯国际、华大九天等公司给予Equal-weight评级,对南茂科技、旺宏电子等公司给予Underweight评级 [128][130]