公司近期动态与成果展示 - 摩尔线程于北京举办首届开发者大会(MDC),1000平方米展区汇聚上千位开发者,集中展示了智能机器人、数字人、Agent、AI for Science及气象预测等前沿技术应用 [2] - 展区中央的数字文娱与视频多媒体区展示了由国产GPU驱动的eVTOL全动飞行模拟器、经典拳皇及3A大作游戏,突显了公司全功能GPU同时具备图形能力的稀缺性 [2] - 展区一次性展示了近百个应用案例,覆盖从消费到垂直行业、从图形到AI再到高性能计算的广泛应用,直观呈现了全功能GPU的能力边界与公司成立五年来的成果 [2][3][15] 全功能GPU的战略价值与技术特性 - 全功能GPU需同时支持完整的图形流水线、张量计算核心以支持AI,以及高精度浮点单元以满足高性能计算,这是其核心“奥义” [5] - 公司全功能GPU内置多种计算引擎,涵盖AI计算、3D图形渲染、物理仿真与科学计算,以及超高清视频编解码,实现了“AI+3D图形+高性能计算”于一颗芯片 [7] - 全功能GPU的应用广度相较传统GPGPU呈现出明显量级差异,同一架构下不同型号的GPU可同时承担图形、AI与计算任务 [15] 图形与视频处理能力的具体表现 - 自2022年11月发布消费级显卡MTT S80起,公司几乎每30天更新一次驱动,已实现对China Top 50热门游戏的100%兼容,并对其中44款完成专项优化 [9] - 公司的端侧实时视频超分技术MTVSR可实现2–4倍实时超分效果,同时降低视频存储和传输成本 [11] - 基于MTT X300的国产视景系统——微视威eVTOL全动飞行模拟器已通过中国民航局5级鉴定,首次打通全国产化视景渲染链路 [11] AI计算与高性能计算的应用突破 - 在智慧医疗领域,合作伙伴基于MTT S4000将AI推理、三维重建与高性能渲染整合,将二维医学影像实时转化为三维模型,通过XR设备呈现 [11] - 在智算场景,公司通过KUAE集群的零中断容错方案实现大规模训练全程不中断 [11] - 在推理侧,与合作伙伴对MTT S5000进行深度优化,在DeepSeek 671B全量模型的实际推理中,MTT S5000单卡Prefill吞吐突破4000 tokens/s,Decode吞吐突破1000 tokens/s [11] 多领域应用案例的广泛覆盖 - 在具身智能赛道,合作伙伴的VR遥操作机器人系统已与MTT E300 AI模组适配,并与MTT S80协同工作,实现高风险环境下的精细作业 [13] - 在AI推理市场,多家合作伙伴基于公司全功能GPU推出多款AI Box,将算力延伸至具身智能、Agent、制造、办公、交通、教育和医疗等场景 [15] - 在科学计算领域,公司联合北京大学课题组打造软硬件协同的生命科学解决方案,并在CAD、工业设计与专业可视化领域,国产工作站方案正逐步投入使用 [15] 芯片架构的快速迭代与新品发布 - 公司自成立之初便选择全功能GPU路线,自2022年量产第一代架构苏堤以来,以一年一代的速度快速迭代,相继发布了春晓、曲院、平湖架构 [18] - 每代架构都推出满足不同市场需求的产品,例如S80为首款国产消费级显卡,S4000为首个训推一体AI集成卡并组建千卡集群,S5000构建万卡集群支撑万亿参数大模型训练 [20] - 公司计划于2026年推出基于全新指令集的下一代架构——花港,旨在国产工艺发展相对缓慢时提升算力密度,通过全新指令集将算力密度提升50%,并通过精心打磨架构将效能提升10倍 [20] 新一代花港架构及芯片性能详解 - 基于花港架构,公司推出两款新品:AI训推一体芯片华山和专业图形图像计算芯片庐山 [22] - 华山是一款高性能AI推理与训练芯片,其浮点计算性能位于业界最领先的两款GPU之间,访存带宽和高速互联同时提升,结合异步编程技术实现高效线程同步等,综合性能极具竞争力 [22] - 华山的新一代TensorCore支持从FP4到FP64的全精度计算,并对FP8、FP6和FP4等低精度单元进行了优化,同时开放支持多种类的以太协议,不仅支持MTLink 4.0,还支持国内合作伙伴的以太网协议,充分兼容不同硬件生态 [25] - 得益于新一代Scale-up系统,华山的能力能够实现1024个GPU的超节点,公司发布了MTT C256超节点的架构规划 [27] - 庐山作为花港架构专业图形计算产品,相比S80,游戏性能提升15倍,AI计算性能提升64倍,几何处理提升16倍,光线追踪提升50倍,并显著增强纹理填充、原子访存能力及显存容量 [29] - 截至2025年6月30日,公司累计授权专利514项,其中发明专利468项,为性能跃升提供了技术和专利积累 [31] MUSA软件生态的战略与进展 - MUSA是公司自主研发的元计算统一系统架构,覆盖从芯片架构、指令集、编程模型到软件运行库及驱动程序框架等的全栈技术体系 [33] - 决定主权AI成败的关键在于是否有足够多的开发者愿意长期在这套栈上写代码,开发者是生态的核心 [35] - 构建生态的思路在于包容和兼容,包容意味着涵盖多条技术路线,兼容意味着不必打造完全不同的生态 [37] - MUSA软件栈在编程模型、方式和加速库功能上与国际主流高度一致,以降低开发者学习成本,并通过更高级抽象的DSL领域专业编程语言以及与开发者深度融合实现软硬件协同设计来寻求突破 [38] MUSA 5.0的关键升级与开发工具 - MUSA 5.0在全栈统一性、极致效能和生态开放性上取得关键突破 [39] - 编程生态升级:原生MUSA C,深度兼容 TileLang、Triton 等编程语言,为开发者提供灵活高效的全栈开发体验 [42] - 计算效能优化:核心计算库muDNN实现GEMM/FlashAttention效率超98%,通信效率达97%,编译器性能提升3倍,并集成高性能算子库,显著加速训练与推理全流程 [42] - 开源生态扩大:计划逐步开源计算加速库、通信库及系统管理框架在内的核心组件,向开发者社区开放深度优化的底层能力 [42] - 前沿特性拓展:即将推出兼容跨代GPU指令架构的中间语言MTX、面向渲染+AI融合计算的编程语言muLang、量子计算融合框架MUSA-Q,以及计算光刻库muLitho [42] - 公司推出了搭载长江智能SoC的AIBOOK,新一代长江AI SoC集成多种处理单元,提供高达50TOPS端侧AI算力,内置1TB SSD、32G/64G高速存储,预装Linux内核AIOS系统及开发工具,支持主流操作系统,实现“开箱即用” [43] - 基于长江SoC的迷你型计算设备MTT AICube也将推出,公司还将推出面向前沿领域的完整方案,如端云一体化具身智能方案MT Robot,帮助开发者缩短产品上市周期 [45] 开发者生态建设与公司价值展望 - 目前,摩尔学院用户总量已经达到了20万,公司的目标是拥有百万级的MUSA开发者 [47] - 全功能GPU决定了公司能够探索的应用广度,包括图形渲染、AI与高性能计算,而MUSA生态的繁荣程度则决定了在各个市场的应用厚度和不可替代性,广度与厚度的乘积是支撑公司千亿价值的基石 [49] - 从首届开发者大会的近百个应用案例,到MUSA生态与花港架构的落地,公司正以完整技术体系和开放生态将潜力转化为切实价值 [50]
首届开发者大会,让摩尔线程全功能GPU的独特优势更「具像化」
雷峰网·2025-12-26 00:25