MindSpore

搜索文档
徐直军详解华为最强“算力核弹”
观察者网· 2025-09-18 13:24
芯片产品规划 - 昇腾950系列芯片支持FP8/MXFP8/MXFP4等低数值精度格式,算力达1P-2P FLOPS,自研HiF8格式精度接近FP16,包含面向Prefill场景的950PR和面向Decode场景的950DT两款合封芯片,均计划2026年上市 [3] - 昇腾960芯片性能较950翻倍,支持自研HiF4格式,推理精度优于业界FP4方案,计划2027年四季度推出 [7] - 昇腾970芯片FP4/FP8算力及互联带宽较960全面翻倍,内存访问带宽提升1.5倍,计划2028年四季度推出 [7] - 鲲鹏950处理器包含96核/192线程和192核/384线程两个版本,为首款支持机密计算的数据中心处理器,计划2025年一季度推出 [13] - 鲲鹏960处理器包含96核/192线程高性能版和不少于256核/512线程高密版,计划2028年一季度推出 [13] 超节点系统 - Atlas 950超节点基于8192颗昇腾950DT芯片构建,包含160个机柜(128计算柜+32互联柜),占地1000平方米,FP8算力达8E FLOPS,FP4算力达16E FLOPS,互联带宽16PB/s(超全球互联网峰值带宽10倍),计划2026年四季度上市 [11] - 对比英伟达NVL144系统,Atlas 950芯片规模为其56.8倍,总算力为其6.7倍,内存容量1152TB为其15倍,互联带宽16.3PB/s为其62倍 [11] - Atlas 960超节点基于15488颗昇腾960芯片构建,包含220个机柜(176计算柜+44互联柜),占地2200平方米,FP8算力30E FLOPS,FP4算力60E FLOPS,内存容量4460TB,互联带宽34PB/s,计划2027年四季度推出 [13] - TaiShan 950超节点为全球首款通用计算超节点,基于鲲鹏950处理器,最大支持32处理器/48TB内存,支持内存/SSD/DPU池化,计划2025年一季度上市 [13] 算力集群架构 - Atlas 950 SuperCluster集群由64个Atlas 950超节点互联组成,集成52万片昇腾950DT芯片,FP8总算力524E FLOPS,规模为xAI Colossus集群2.5倍,算力为其1.3倍 [18] - Atlas 960 SuperCluster集群计划2027年四季度推出,规模达百万卡级,FP8总算力2Z FLOPS,FP4总算力4Z FLOPS [19] - 自研"灵衢(UB)"互联协议支持万卡级超节点架构,具备总线级互联/平等协同/全量池化等六大特性,并开放灵衢2.0技术规范构建生态 [17] 软件生态战略 - CANN编译器与虚拟指令集接口开放,其余软件全开源,基于昇腾910B/C的开源计划2025年12月31日前完成 [22] - Mind系列应用使能套件及工具链全面开源,计划2025年12月31日前完成 [22] - openPangu基础大模型全面开源 [22] 技术突破方向 - 自研两种低成本HBM内存技术,分别适配Prefill推荐场景和Decode训练场景 [3] - 通过光通信/网络/供电技术集成384颗昇腾芯片构建超节点,计算与通信高速并行,已部署超300套 [10] - TaiShan 950超节点结合GaussDB多写架构可实现大型机/小型机替代,性能提升2.9倍 [15] - 推出TaiShan 950与Atlas 950混合超节点,支持PB级推荐系统嵌入表和超低时延推理 [15]
AI落地的关键堵点,华为用“黑科技”打通了
观察者网· 2025-08-15 04:06
AI推理性能瓶颈 - 传统Scaling Law遇到明显瓶颈 企业开始关注模型推理性能体验以推动商业落地和变现 [1] - AI推理算力需求已超过训练 GPT-5开放首周API调用量超20亿次/分钟 70%请求为复杂推理任务 火山引擎日均token调用量达16.4万亿 70%以上来自线上推理 [4] - 长文本处理 多轮对话以及复杂业务流程的推理需求日益增长 对推理性能要求愈发严苛 [4] 中国AI推理困境 - 基础设施投资仅为美国十分之一 面临算力卡阉割 HBM涨价禁运等困境 [1][6] - 国外主流大模型输出速度达200 tokens/s(时延5ms) 国内普遍小于60 tokens/s(时延50-100ms) 最大差距达10倍 [7] - 海外模型支持100万级Token上下文窗口 国内头部模型仅50万 长文本分析中遗漏关键信息概率超50% [7] 键值缓存技术挑战 - KV Cache需占用GPU显存存储历史Key/Value向量 长文本生成会挤爆HBM和DRAM [6] - Agentic AI时代到来导致KV Cache容量增长超出HBM承载能力 频繁内存溢出造成推理"失忆"和卡顿 [6] - 中国企业无法无限制堆卡 面临出口管制无法获得最先进算力卡和HBM [6] 华为UCM技术突破 - 通过分级缓存管理在HBM DRAM SSD等存储介质中按数据热度缓存 扩大推理上下文窗口10倍 [10][15] - 采用注意力稀疏技术识别KV Cache数据重要程度 分层分级缓存并流动 降低向量数量提升吞吐量 [17] - 将历史已处理结果缓存至外置共享存储 首token延迟降低90% 节省token by token时间 [13] 性能提升与成本优化 - 长序列场景下TPS提升2-22倍 降低每Token推理成本 为企业减负增效 [17] - 维持算力投入不变 仅增加小部分外置存储投资 改善推理效率并摊薄成本 [18] - 推动形成"用户体验提升-用户增长-企业加大投资-技术迭代"的正循环 [18] 金融场景应用验证 - 与中国银联合作解决长序列输入 并发时延和算力耗费三大核心难题 [19] - 在"客户之声"业务场景推理速度提升125倍 10秒精准识别客户高频问题 [21] - "营销策划"场景生成时间从数分钟缩短至10秒内 单台服务器支持超5人同时在线协作 [21] 技术开源与生态建设 - 华为宣布9月开源UCM 包含推理引擎插件 功能库和高性能存取适配器三大组件 [26] - 开放统一接口适配多类型推理引擎框架 算力及存储系统 推动生态繁荣 [28] - 差异化在于将专业存储纳入 通过软硬协同和算法库贡献丰富可靠的加速算法 [26] 行业意义与发展前景 - 降低对HBM依赖 将HBM优势发挥在更合适地方 填补中国AI推理生态关键环节 [18][26] - 解决Agentic AI时代显存不足和推理Token成本问题 可应用于千行百业 [23] - 推动中国AI产业进入良性商业正循环 为长远发展注入更强动力 [28]
华为版CUDA,全面开源了
猿大侠· 2025-08-07 04:11
华为昇腾AI生态开源战略 - 公司宣布全面开源昇腾AI GPU的CANN软件工具包及Mind系列应用使能套件,支持开发者深度自定义开发[1][3] - CANN作为华为版CUDA,提供多层编程接口和算子加速库,构建针对昇腾硬件的AI应用生态[4][5] - 当前CANN 8.0提供社区版(新功能体验)和商业版(企业稳定版),均升级至8.2.RC1并新增适配12款操作系统[7] 挑战英伟达CUDA封闭生态 - 华为通过开源CANN打破CUDA仅支持英伟达硬件的垄断,避免开发者迁移时需重写代码的困境[7] - 配套自研框架MindSpore(类似PyTorch)形成原生AI软硬件方案,已支持PyTorch/TensorFlow等8种主流框架[8][15] - 联合行业发起《CANN开源开放生态共建倡议》,加速昇腾生态建设[11][12] GPU架构师创业公司Oxmiq Labs - 前AMD/英特尔高管Raja Koduri创立Oxmiq,专注GPU硬件IP授权及兼容第三方硬件的软件堆栈[14][17][18] - 硬件采用RISC-V架构GPU IP核OxCore,集成标量/矢量/张量引擎,支持芯片集系统OxQuilt灵活构建SoC[22][25] - 软件核心OXPython可无修改运行CUDA应用,初期将部署在Tenstorrent AI加速器而非自有硬件[29][30][31] 行业竞争格局变化 - 华为与Oxmiq分别从开源生态和跨平台兼容性切入,挑战英伟达CUDA的技术壁垒[7][27] - 两者战略差异:华为绑定昇腾硬件变现,Oxmiq软件独立于硬件授权[3][31] - 行业涌现多路径替代方案,最终推动开发者工具链多元化[9][32]
华为版CUDA,全面开源了
36氪· 2025-08-06 08:29
华为昇腾AI生态开源战略 - 公司宣布全面开源昇腾硬件使能软件CANN及Mind系列应用使能套件,支持开发者深度挖潜和自定义开发,加速AI创新 [3] - CANN作为华为版CUDA,提供多层编程接口,已升级至8.0版本,包含社区版(新功能体验)和商业版(企业稳定版),新增适配12款操作系统 [6] - 配套自研深度学习框架MindSpore(类似PyTorch),形成原生AI软硬件方案,并支持PyTorch、TensorFlow等8种主流框架与第三方库 [6][9] - 联合行业发起《CANN开源开放生态共建倡议》,意图打破英伟达CUDA封闭生态的垄断 [11] 挑战英伟达CUDA的新兴竞争者 - 传奇GPU架构师Raja Koduri创立Oxmiq Labs,定位为硅谷25年来首家GPU初创公司,专注GPU硬件IP与软件堆栈授权 [12][14] - 公司硬件方案基于RISC-V指令集,推出模块化GPU IP核OxCore及芯片集构建器OxQuilt,支持灵活配置AI训练/推理SoC [18][20] - 软件核心OXPython可无修改运行Python版CUDA应用,通过统一运行时OXCapsule实现跨硬件平台兼容,初期适配Tenstorrent加速器 [23] - 战略强调软件堆栈与硬件解耦,直接对标CUDA生态,降低开发者迁移门槛 [16][21] 行业竞争格局变化 - 华为与Oxmiq分别从开源生态和兼容层技术切入,挑战英伟达CUDA的封闭体系 [6][23] - 昇腾CANN开源可能吸引受限于CUDA绑定的开发者,而Oxmiq的跨硬件兼容方案瞄准多模态AI/图形工作负载 [6][16] - 两家公司均强调降低开发者迁移成本,通过工具链开放或代码兼容性争夺生态话语权 [3][23]
对标英伟达CUDA,华为昇腾关键套件全面开源
选股宝· 2025-08-05 23:22
据华为官网8月5日显示,在当日召开的昇腾计算产业发展峰会上,徐直军宣布华为昇腾硬件使能CANN 全面开源开放,Mind系列应用使能套件及工具链全面开源,支持用户自主的深度挖潜和自定义开发, 加速广大开发者的创新步伐,让昇腾更好用、更易用。 国盛证券指出,昇腾CANN对标英伟达CUDA,提供高性能算子库和多种开发方式,MindSpore开源框 架助力高效开发;应用使能的MindX通过"2+1+X"模式,降低行业开发门槛,推动昇腾计算成为全场景 AI基础设施。 财通证券认为,生态构建是必然趋势,我国需加速完善类似CANN的底层架构,提升对CUDA的兼容效 率,降低性能损耗,同时推动MindSpore等国产框架与芯片深度协同,形成"芯片-框架-应用"的自主闭 环。 中银证券认为,昇腾强大的订单兑现能力将带动产业链持续扩容,昇腾384不仅具备系统层级的性能优 势,也展现出对国产产业链更强的牵引能力。若更多企业向其平台转移,国内供应链有望从芯片到整 机、从整机到材料实现全面联动,进入新的增长周期。 公司方面,据上市公司互动平台表示, 先进数通:昇腾A800I A2大模型一体机已经正式开售。 拓维信息:华为"鲲鹏/昇腾A ...
对标英伟达CUDA,华为宣布开源CANN
新浪财经· 2025-08-05 14:29
华为昇腾计算战略 - 公司宣布昇腾硬件使能CANN全面开源开放,Mind系列应用使能套件及工具链全面开源,支持开发者深度挖潜和自定义开发[1] - 公司AI战略核心是算力,坚持昇腾硬件变现[1] - CANN作为神经网络异构计算架构,连接上层AI训练框架和底层昇腾芯片,简化开发者调用底层算力的流程[1] CANN技术定位与竞品对比 - CANN作用类似英伟达CUDA、AMD ROCm、摩尔线程MUSA等,但CUDA凭借成熟生态构成英伟达核心护城河[1] - CUDA生态系统存在巨大迁移成本,开发者需重写代码并失去社区支持,而昇腾+CANN+MindSpore构成对标英伟达PyTorch+CUDA的原生方案[3] - CANN 8.0版本新增200+基础算子、80+融合算子、100+API,典型算子开发周期从2人月缩短至1.5人周[4] 生态兼容性与开放策略 - CANN已支持PyTorch、MindSpore、TensorFlow等主流框架及第三方库,实现分层深度开放以降低迁移门槛[5] - 公司向百度、科大讯飞、腾讯派遣工程团队,帮助优化基于CANN的代码,效仿英伟达早期推广策略[7] - 公司发起《CANN开源开放生态共建倡议》,联合AI领军企业、高校等共同构建昇腾生态[7] 华为开源布局与市场表现 - 公司2020年开源MindSpore框架,2024年以30.26%新增份额成为中国AI框架市场第一[8] - 通过开放鸿蒙、欧拉、高斯等基础软件,打破"封闭式发展"的行业质疑[8] 生态发展挑战 - CANN生态发展仅6-7年,易用性和丰富度仍落后发展18年的CUDA,需长期投入[7] - 行业认为构建竞争力软件生态需数年时间,开发者习惯培养是关键[7]
H20解禁,中美AI闭环竞赛开启
虎嗅· 2025-07-16 01:51
英伟达H20芯片解禁事件分析 - H20芯片是AI训练千亿大模型的核心动力 被比喻为AI时代的"发动机" [3] - 2024年H20为英伟达带来120-150亿美元收入 占中国区营收85% [7] - 禁售导致英伟达Q1损失25亿美元 预计两季度共亏损135亿美元 [9] 中美科技博弈新阶段 - 美国从全面封锁转向有限放水 形成新的平衡策略 [5][15] - 禁令倒逼中国加速国产替代 华为昇腾910B性能接近H20 [11][33] - 中国AI市场未停滞 反而推动国产芯片生态发展 [14] 中国市场变化 - 字节跳动和腾讯2024年采购23万枚Hopper系列芯片 [8] - 腾讯向字节跳动购买价值20亿元GPU算力资源 [28] - H20服务器价格从100万元涨至140万元 [30] 国产替代进展 - 华为昇腾 寒武纪等国产芯片性能显著提升 [11] - 国家发改委建议优先使用国产芯片 [34] - 华为MindSpore 百度PaddlePaddle等国产框架逐步完善 [35] 英伟达应对策略 - 强调高性能计算和生态兼容性优势 [40] - 尝试与小米等中国头部企业深化合作 [43] - 讨论基于CUDA的本地化AI训练方案 [46] 行业未来趋势 - 可能出现中美两个平行的AI技术世界 [52] - 中国正在构建芯片-框架-大模型-应用的闭环生态 [59] - 华为昇腾+MindSpore+Qwen形成自主技术体系 [60]
中美AI竞争报告:中国人工智能产业政策能否突破美国封锁?
36氪· 2025-07-01 07:53
中国人工智能产业政策 - 中国计划到2030年成为人工智能全球领导者,目标是将人工智能打造为价值1000亿美元产业,并在其他行业创造超过1万亿美元附加值 [2] - 政策工具包括82亿美元人工智能初创企业基金、国家集成电路网络、地方政府支持的人工智能实验室和试验区 [3] - 重点支持领域涵盖医疗保健、制造业、农业升级以及机器人、自动驾驶等硬科技新兴产业 [2] 政策实施与效果 - 中国人工智能模型性能正缩小与美国差距,应用场景在电动汽车、机器人、医疗等领域快速扩展 [1] - 国家支持叠加民营科技企业(如阿里巴巴、字节跳动)的数百亿美元投资,但总投资仍落后于美国(如OpenAI的1000-5000亿美元项目) [3] - 华为昇腾芯片等国产替代品在性能和产量上落后英伟达,目前基于华为硬件训练的公开模型不足十个 [6] 美国出口管制影响 - 美国对先进计算芯片的出口管制限制了中国企业的计算资源获取,迫使百度、字节跳动等公司缩减训练规模 [6] - 中国企业采取芯片囤积、海外建数据中心(如墨西哥、马来西亚)等策略规避管制 [7] - 软件生态上,华为MindSpore和百度PaddlePaddle作为PyTorch/TensorFlow替代品,但GitHub关注度仍较低 [7] 发展瓶颈与应对 - 三大关键瓶颈:国产芯片研发(如华为Ascend 910B)、人工智能人才短缺、数据中心能源需求(预计2030年增长三倍) [9] - 科大讯飞透露,从英伟达转向华为芯片导致模型开发延迟三个月 [9] - 私营部门主导创新,如DeepSeek等公司推动技术进步,但美国私人投资规模为中国企业的十倍 [11] 未来竞争态势 - 中国可能通过"自主可控"生态(芯片+软件)突破管制,但当前替代方案尚未成熟 [8] - 产业政策有效性取决于与民营生态协同,若脱离需求可能导致资源错配 [11] - 人工智能发展依赖快速创新范式(如推理模型),政府长期规划难度高于传统行业 [10]
独家揭秘!华为如何让万台AI服务器秒变「超级大脑」
第一财经· 2025-06-09 09:01
AI算力集群的关键特性 - AI算力集群通过连接上万台甚至几十万台计算机形成"算力航空母舰",以应对万亿参数大模型的计算需求[1] - 需要解决协同工作、高效运行和快速修复等世界级难题[1] 超节点高可用 - 算力集群采用"备用替身"机制,确保单台机器故障时任务无缝接管,避免全盘停止[3] - 华为提出系统层、业务层和运维层三级容错方案,将故障转为亚健康问题并优雅消除[3][4] 集群线性度 - 理想情况下算力应随计算机数量线性增长,华为通过精密任务分配算法实现接近完美的线性度[6] - 实验显示训练Pangu Ultra 135B模型时4K卡集群线性度达96%,Pangu Ultra MoE 718B模型8K卡集群线性度达95.05%[8] 万卡集群训练快速恢复 - 系统具备"存档功能",可在设备故障时从最新进度恢复,避免从头训练[10] - 华为创新技术将训练恢复时间缩短至3分钟内,部分场景可达30秒内[11] 超大规模MoE模型推理恢复 - 大EP组网架构下硬件故障可能导致整个推理实例不可用[13] - 华为三级容错方案将实例恢复时间从20分钟降至5分钟,TOKEN级重试实现30~60秒恢复[15] 故障管理与感知诊断 - 实时监控系统持续监测设备健康状态,快速定位并修复故障[17] - 华为提供完整的硬件灾备高可靠架构设计和RAS统一故障管理框架[17] 建模仿真 - 虚拟环境"数字化风洞"可预测模型真实表现,提前发现系统瓶颈[19] - 华为马尔科夫建模仿真平台在训练、推理和高可用领域实现系统性建模分析[19][20] 框架迁移 - 昇思MindSpore框架覆盖90%以上PyTorch接口,实现第三方框架无缝迁移[22] - 推理阶段支持HuggingFace权重一键部署,实现盘古72B模型推理性能提升[22] 总结与展望 - 华为在算力集群多个维度提出创新方案,形成完整技术体系[24] - 未来算力基础设施将走向算法-算力-工程协同进化,形成需求-创新-反哺闭环[24]
华为昇腾万卡集群揭秘:如何驯服AI算力「巨兽」?
机器之心· 2025-06-09 04:33
AI算力集群的核心作用 - AI算力集群通过连接上万台甚至几十万台计算机形成"算力航空母舰",支撑大模型训练和复杂AI任务处理[3] - 单台计算机算力无法满足万亿参数大模型需求,集群化方案解决算力瓶颈问题[3] - 集群需要解决设备协同工作、故障容错、训练中断恢复等世界级工程难题[4] 超节点高可用技术 - 采用系统层/业务层/运维层三级容错方案,将故障转为亚健康状态并通过运维手段消除[7][8] - 系统层通过超时代答欺骗OS和网络路由切换防止系统级故障[7] - 业务层实现租户无感知的网络闪断重试,运维层构筑亚健康感知和优雅恢复技术[8] 集群线性度优化 - 通过拓扑感知协同编排(TACO)、网存算融合(NSF)等四项关键技术实现算力线性扩展[11] - 训练Pangu Ultra 135B模型时4K卡集群线性度达96%,718B稀疏模型8K卡集群线性度95.05%[13] - 理想状态下集群应实现算力与设备数量的线性增长,避免资源内耗[10] 万卡集群快速恢复 - 采用进程级重调度恢复技术将训练恢复时间缩短至3分钟内[15] - 进程级在线恢复技术针对硬件UCE故障实现30秒内恢复[15] - 算子级在线恢复技术实现网络故障下的秒级重执行,保持训练连续性[15] MoE模型推理容错 - 大EP组网架构下提出实例间切换/实例内重启/实例内无损三级容错方案[19] - 实例内快速重启技术将恢复时间从20分钟降至5分钟[20] - TOKEN级重试技术在CloudMatrix 384场景实现30-60秒实例恢复[21] 故障感知与诊断 - 构建全栈可观测能力,包括集群运行视图、网络链路监控等模块[26] - 建立全栈故障模式库,涵盖跨域诊断、计算节点诊断等能力[26] - 实时监控系统持续跟踪设备温度、算力利用率等健康指标[24] 建模仿真技术 - Sim2Train平台通过AdaptPack编排优化使训练吞吐提升4.5%-8.24%[31] - Sim2Infer推理仿真平台实现硬件指令自动化映射,平均误差6.6%[33] - 高可用仿真框架建模单步时长内的故障影响与恢复耗时[35] 框架迁移方案 - MindSpore通过MSAdapter工具覆盖90%以上PyTorch接口实现生态兼容[38] - 推理阶段支持HuggingFace权重一键部署,vLLM插件提升大模型服务能力[38] - 动态图执行通过多级流水线与JIT编译优化显著提升效率[38] 未来发展趋势 - 算法-算力-工程协同进化将形成"应用需求→硬件创新→工程反哺"闭环[39] - 算力专用化趋势下需异构加速,架构革新如光电混合将释放性能潜力[39] - AI运维等智能化手段将成为弥合系统复杂度鸿沟的关键[39]