大模型推理

搜索文档
算力产业近况解读
2025-05-25 15:31
纪要涉及的行业和公司 - **行业**:算力产业、GPU 行业 - **公司**:英伟达、华为、阿里巴巴、百度、腾讯、字节跳动、寒武纪、昆仑芯、韩 5G、海光、火山引擎、智谱、讯飞 纪要提到的核心观点和论据 市场需求与前景 - **全球和国内 GPU 市场需求持续增长**:中国因贸易摩擦,依赖国产或降配版进口芯片;国际上美国生成式多模态及 AGI 技术发展、其他地区推进大模型行业落地带动算力需求[1][3] - **未来两年存在两种情景**:贸易摩擦加剧,国产芯片需求增加;关系缓和,降配版进口芯片推动多模态应用发展,无论哪种情景算力需求都增加[3] 英伟达产品情况 - **英伟达 H20 不受青睐**:降配后性能优势减少、利润下降,头部互联网公司或云服务企业倾向选择性价比更高的国产芯片,国产卡逐渐占据更多市场份额[1][4][5] - **英伟达在中国市场 GPU 卡性价比降低**:预计 2025 年再推降配版 H20 难获大量订单,仅个别急需公司可能购买[5] - **国内公司倾向 B20 而非 H20**:H20 性能下降严重,无法满足多模态推理和 agent 应用需求;B20 架构并行速度和卡间协作更佳,单机内和集群内表现损耗小[1][11] - **B 系列降配版能满足禁令要求**:H 系列因物理架构限制,缩减显存和降低计算频率会使集群表现大幅下降;B 系列架构处理好,配置低时表现损耗小[12] 国产芯片情况 - **华为升腾系列有进展但存在不足**:升腾 910C 通过 3D 空间式设计提升单机架内算力约 25%,但缺乏 Nvlink 导致数据传输速度受限[6] - **韩 5G 芯片有突破但表现欠佳**:实现单片参数技术突破,但在组网及复杂计算中表现欠佳,高可用性材料有差距[6] - **国产芯片需补足多方面**:软硬件结合能力不足、产能问题(如寒武纪无训练卡生产能力)、良品率低,导致显存、传输速度、更新迭代及产能分布存在不足[20] 国内互联网巨头自研芯片情况 - **阿里巴巴**:通过平头哥系列服务于阿里云,用于降低成本、硬件加速和 IoT 场景[7] - **百度**:通过昆仑芯推进大模型推理商业化,与飞桨开发框架适配,实现自主可控[7] - **腾讯和字节跳动**:集中于视频解码、加速及神经网络训练等领域,字节跳动还尝试与台积电合作研发高性能多模态推理芯片[7] 应用场景与算力投入 - **推理场景资源消耗接近训练场景**:2025 年多模态推理场景资源消耗与训练相差无几,特定场景推理成本超训练成本,预计 2026 年互联网公司算力投入向推理倾斜[1][8][9] - **公有云需求未显著增长**:中小企业接入大模型 API 或构建 agent 较少,市场以头部公司自有业务为主导,社会面日常 TOKEN 消耗量相对较低[10] 市场供应与租赁挑战 - **高性能计算芯片供应情况**:英伟达 H20 大部分被头部公司购买,A100 和 A800 应用场景有限,H100 和 H800 价格昂贵,小型企业难以负担,且头部公司考虑数据安全不轻易选择外部集群[17] - **企业租赁高性能芯片面临挑战**:大规模预训练需显卡集中,推理环节需求无法分散,高性能芯片大规模使用存在市场供应量和技术困难,零星或大规模租赁不可行[2][19] 多模态技术市场情况 - **多模态技术占领市场概率高**:2024 - 2025 年末市场规模预计增长 15 - 20 倍,火山引擎大模型有效 tokens 部分来自公有云供中小企业使用[14] 其他重要但可能被忽略的内容 - **字节跳动租赁情况**:租赁 IDC 和机房存放芯片,年初租赁算力用于抖音和豆包相关功能加速,为临时性非大规模租用 GPU[15][16] - **腾讯 GPU 采购困难**:今年一季度疯狂购买 GPU,二三月难买到,四月底五月甚至考虑向字节跳动购买,反映国内市场优质 GPU 资源争夺激烈且供不应求[22] - **非上市公司芯片情况**:昆仑芯推理效果优异,集群版每秒可处理 4000 多个 tokens,单机版能处理三四十个 tokens,P 系列推理优化后集群表现优于华为 910B;韩 5G 芯片带宽传输有瓶颈、耗电量大;海光少量采购组网测试,测试质量难保证[23][24] - **全球 GPU 市场格局及资本开支**:2025 年资本开支增长迅速,2026 年预计下降至 50%以下;字节跳动和阿里巴巴算力采购总量可能降至 80%左右,腾讯增加采购量,百度需求与今年持平但推理侧需求增加;若政策支持,百度将增加昆仑芯产能或进口芯片;2026 年华为生成芯片产能约 85 万,可能被国央企优先购买[25]
华为的三个黑科技,要颠覆AI计算?
虎嗅APP· 2025-05-23 11:47
大模型技术发展现状 - 主流MoE架构大模型存在硬件成本高、效率低等结构性问题,中国企业面临芯片堆砌与效率挖掘的挑战 [1] - 华为作为智能基础设施提供商,通过数学算法和工程积累为DeepSeek提升效率及用户体验,探索差异化技术路径 [1] - 虎嗅推出《华为技术披露集》系列,首次全面披露超大规模MoE模型推理部署技术细节,旨在推动昇腾生态发展 [1] 昇腾算子优化技术 - 算子是AI大模型的核心计算单元,华为开源三大硬件亲和算子技术(AMLA、融合算子、SMTurbo),实现效率与能效双重突破 [3][4][5] - AMLA通过数学重构将乘法转为加法运算,算力利用率提升至71%,优于FlashMLA公开结果 [7][9] - 融合算子优化实现硬件资源协同调度,通过并行度优化、冗余数据消除和数学重构,显著提升模型推理性能 [11][12] - SMTurbo技术实现384卡内存共享,跨卡访存延迟降至亚微秒级,访存吞吐提升20%以上 [14] 技术应用与未来方向 - AMLA技术将扩展至KVCache量化和全量化场景,进一步拓宽应用范围 [17] - 融合算子优化将探索更多模型架构适配,推动大语言模型在昇腾硬件的高效推理 [17] - SMTurbo将结合业务场景优化流水设计,在DeepSeek dispatch与combine场景中实现大BatchSize收益 [17] 行业影响与案例 - 华为与DeepSeek合作的技术方案在推理性能上表现优异,引发行业关注 [20][22] - 华为通过技术创新解决大模型推理效率瓶颈,推动行业突破"服务器繁忙"等体验问题 [22][23]
大模型推理,不再是“一根筋”
虎嗅APP· 2025-05-22 11:41
大模型推理技术发展 - 主流MoE架构大模型存在硬件成本高、效率低等结构性问题,中国企业面临芯片堆砌与效率挖掘的挑战 [1] - 华为通过数学算法和工程积累为DeepSeek提升效率及用户体验,采用差异化技术路径 [1] - 大语言模型参数规模呈指数级增长,部署形态从单卡演进到多卡集群,MoE模型需数百卡集群支持 [2] 集合通信操作核心机制 - 集合通信操作(如AllReduce、All-Gather、Reduce-Scatter、All-To-All)是大模型多节点协作的关键桥梁 [2][3][4] - AllReduce用于梯度汇总与参数更新,All-Gather实现数据全局共享,Reduce-Scatter分摊计算压力 [3] - 不同并行策略(TP、DP、EP)依赖特定通信操作:TP需All-to-All交换张量片段,DP用AllReduce同步梯度,EP依赖广播传递中间结果 [4][5] 通信技术瓶颈与挑战 - MoE模型参数突破千亿级,专家数量增长导致通信带宽需求呈平方级增长,引发网络拥塞 [7] - 传统AllReduce在大并发场景下效率不足,且后续计算操作(如RMSNorm)加剧时延 [7][8] - TP并行方案中AllReduce操作占推理时延较高,跨节点带宽限制进一步劣化性能 [8] 华为FlashComm技术创新 - **多流并行技术**:拆解MoE计算流程为三股并行流(专家计算/门控决策/数据传输),实现Prefill阶段提速10%,Decode吞吐提升25-30% [12][13] - **AllReduce革新**:采用ReduceScatter+AllGather组合,结合INT8量化使通信量降35%,Prefill性能提升22-26% [15] - **维度压缩技术**:通过矩阵乘法并行维度调整,通信量减少86%,整体推理速度提升33% [17] 技术方案总结与展望 - FlashComm技术通过通信算子优化降低数据量及时延,FlashComm2优化张量并行通信,FlashComm3提升计算并行度 [21] - 未来研究方向包括EP多流并行、权重自动预取、模型自动多流并行等 [21] - 华为技术方案在DeepSeek模型部署中实现显著性能提升,对比传统方案具有竞争优势 [23]
帮大模型提速80%,华为拿出昇腾推理杀手锏FlashComm,三招搞定通算瓶颈
机器之心· 2025-05-22 10:25
大模型推理通信优化技术 核心观点 - 华为团队推出FlashComm系列技术,通过数学方法重构集合通信操作,解决大模型推理中的通信瓶颈问题,显著提升性能[10][17] - 三项关键技术分别针对AllReduce优化、计算通信平衡和多流并行,在DeepSeek等模型上实现22%-33%的性能提升[7][11][14][15] - MoE架构的扩展使通信复杂度呈平方级增长,传统方案如AllReduce在多节点部署中面临带宽限制和时延问题[6][8] 技术细节 集合通信基础 - 全量规约(AllReduce)用于梯度汇总,全量收集(All-Gather)实现数据聚合,规约散射(Reduce-Scatter)分摊计算压力[3] - 张量并行(TP)依赖All-to-All交换张量片段,数据并行(DP)需AllReduce同步梯度,专家并行(EP)需广播传递中间结果[4] 通信挑战 - MoE模型参数突破千亿级,专家路由与数据分发导致通信带宽需求呈平方级增长[6] - TP方案中AllReduce操作占端到端推理时延的30%以上,跨节点带宽限制加剧时延[6][8] 解决方案 - **FlashComm1**:拆解AllReduce为ReduceScatter+AllGather,插入INT8量化使通信量降35%,计算量减至1/8,DeepSeek模型Prefill性能提升26%[7][11] - **FlashComm2**:重构矩阵乘法并行维度,通信量降86%,整体推理速度提升33%[7][14] - **FlashComm3**:实现MoE五大模块三流并行,Decode吞吐提升30%,多卡并行释放2GB内存[15] 行业影响 - 昇腾硬件通过多流引擎支持计算通信重叠,构建大模型推理全栈生态[17][18] - 未来方向包括权重自动预取、模型自动多流并行等,持续优化超大规模EP架构[17]
帮大模型提速80%,华为拿出昇腾推理杀手锏FlashComm,三招搞定通算瓶颈
机器之心· 2025-05-22 04:13
大模型推理通信优化技术 核心观点 - 华为推出FlashComm系列技术,通过数学重构和硬件协同优化,解决大模型推理中的通信瓶颈问题,显著提升推理性能 [2][7][10] - 集合通信操作(如AllReduce、All-Gather)是大模型多节点协作的关键桥梁,但传统方案在MoE等大规模场景下存在效率缺陷 [3][4][6] - 通信优化技术使DeepSeek模型Prefill阶段性能提升22-26%,Decode阶段提升14-30%,Llama3.1-70B模型也有显著加速 [11][14][15] 技术细节 通信挑战 - MoE模型参数突破千亿级别,专家路由与数据聚合导致通信带宽需求呈平方级增长,网络拥塞风险加剧 [6] - 传统AllReduce在多节点部署中跨节点带宽受限,端到端推理时延占比过高 [6][8] - TP并行方案中卡间权重切分虽降低单卡负载,但AllReduce操作仍造成显著时延 [6] 解决方案 **FlashComm1** - 将AllReduce拆解为ReduceScatter+AllGather两阶段,中间插入数据投影降维和INT8量化,通信量降低35%,关键计算量减少至1/8 [11] - DeepSeek模型Prefill推理性能提升22-26%,Llama3.1-70B Decode阶段提升14% [11] **FlashComm2** - 重构矩阵乘法并行维度,将三维张量压缩为二维矩阵,配合INT8量化使注意力机制通信量下降86% [14] - DeepSeek模型整体推理速度提升33% [14] **FlashComm3** - 对MoE模型五大模块(激活通信、门控决策等)进行数学重构,利用昇腾多流引擎实现三股计算流并行 [15] - 腾出2GB内存空间,DeepSeek模型Prefill提速超10%,Decode吞吐增加25-30% [15] 行业影响 - 华为昇腾构建面向大模型推理的全栈生态体系,未来将聚焦超大规模EP下的多流并行、权重自动预取等技术 [17][18] - 技术方案已应用于DeepSeek V3/R1等MoE模型,参数规模达千亿级别,推动行业解决Scaling Law下的通信瓶颈 [6][16]
推理性能PK,华为+DeepSeek>英伟达?
虎嗅APP· 2025-05-19 13:47
大模型推理部署技术突破 - 华为通过"数学补物理"创新思路突破硬件瓶颈,实现昇腾超大规模MoE模型推理部署性能全面超越英伟达Hopper架构 [1][3] - 关键技术包括等价数学变换、FlashComm通算优化、四流并发掩盖、加法代乘法昇腾MLA实现等,算力利用率获极致提升 [3] - 相关核心技术代码将在1个月内陆续开源,体现公司建设开放生态的决心 [4] 超大MoE模型部署挑战 - DeepSeek V3代表6710亿参数混合专家架构新趋势,需硬件集群支持"满血版"部署 [6] - 模型含58个MoE层14906个专家(单个专家权重44MB),对内存效率、分布式并行设计提出极高要求 [7] - 多头隐式注意力机制(MLA)等创新架构导致中间变量膨胀,向量计算占比增加带来新优化挑战 [7] 昇腾硬件部署方案 - **CloudMatrix 384超节点**:采用144卡EP并行部署,实现50ms时延下单卡Decode吞吐1920 Tokens/s,通信耗时降低关键瓶颈 [12] - **Atlas 800I A2服务器**:2节点16卡Prefill+4节点32卡Decode部署,100ms时延下单卡吞吐达723-808 Tokens/s [15] - 采用PD分离部署、A8W8C16量化策略(INT8+BF16)、动态负载均衡等关键技术 [9][10][18] 推理框架优化技术 - API Server水平扩容结合全异步处理提升QPS,MoE动态负载均衡技术显著改善性能 [18] - FusionSpec投机推理引擎实现流程拼接与轻量步间准备,适配高吞吐场景 [19] - FlashComm通信方案降低Prefill阶段25%通信量,层内并行转换技术减少71%节点内通信 [20][21] 模型侧性能优化 - 计算通信并发技术使DeepSeek V3大并发场景Decode性能提升15% [22] - 通信通信并发机制掩盖量化scale开销,通信权重预取提升MLA计算性能10% [23][24] - 细粒度分级流水算法优化Allgather/ReduceScatter算子集群执行效率 [31] 昇腾亲和算子创新 - AMLA算法重构Attention算子,性能提升近1倍,算力利用率达60% [25][26] - MLAProlog算子深度融合前序计算,性能提升30%以上 [26][28] - MoeDistributeDispatch/Combine通算融合算子减少同步开销,SMTurbo-CPP技术优化小数据传输 [29][30] 商业化落地成果 - 硅基流动联合华为云基于CloudMatrix 384上线DeepSeek-R1服务,单卡吞吐1920 Tokens/s比肩H100部署性能 [31] - 技术方案通过主流测试集验证,模型精度与官方版本保持一致 [31] - 全链路优化实现国产硬件高效部署,激活本土AI生态协同创新 [33]
不到15万元!清华90后团队发布“褐蚁”一体机,已支持阿里最新Qwen3模型|钛媒体AGI
钛媒体APP· 2025-04-30 15:09
行云集成电路创始人、CEO季宇 4月30日消息,钛媒体AGI获悉,清华90后创立的北京行云集成电路有限公司(简称"行云集成电路") 宣布,推出全新的一体机产品"褐蚁",仅需最高15万元就可以跑满血版DeepSeek R1/V3大模型,并且对 话速度达到了20token/s。 今天下午,行云集成电路创始人、CEO季宇对钛媒体AGI表示,目前"褐蚁"一体机已经支持阿里最新发 布的Qwen3系列开源大模型,包括顶配版Qwen3-235B-A22B。 具体来说,"褐蚁"一体机有三款不同的配置:最高性价比的"超大杯"褐蚁HY90,搭载双路AMD EPYC 9355服务器、24条 48G 6400M频率内存和NV 5090D计算卡,支持FP8、INT4两种数据精度,在FP8精度 下跑满血版DS能达到21token/s的对话速度,在INT4精度下则能达到28token/s,最高支持128K的上下 文,售价14.9万元;此外,行云集成电路还将推出"大杯"褐蚁HY70、"中杯"褐蚁HY50两个配置版本。 | 型号 | 福盛 HY90 | 褐蚁 HY70 | 褐蚁 HY50 | | --- | --- | --- | --- | ...
14.9万元,满血流畅运行DeepSeek一体机抱回家!清华90后初创出品
量子位· 2025-04-29 04:18
产品性能与定价 - 褐蚁HY90一体机搭载671B参数FP8精度原版DeepSeek模型,价格降至14.9万元级别,较传统百万级设备成本降低一个数量级[1][5][19][31] - 推理速度达22 tokens/s,优于DeepSeek官网表现,数学题等复杂任务仍保持20+ tokens/s[4][10][16] - 采用双路AMD 9005系列CPU+消费级GPU异构架构,1TB/s高内存带宽突破"内存墙",硬件成本控制在10万元内[24][25] 技术架构与创新 - 自主研发推理引擎框架,FP8精度下Decode阶段速度稳定20+TPS,128K上下文仍保持15TPS,16K上下文首字延迟≤80秒[26][27] - 支持INT4量化技术,Decode速度提升至28TPS(1K上下文),预留1.5T参数模型扩展能力[26][28] - 通过参数压缩与算法优化,实现满血FP8精度模型部署,未来将支持MoE类模型[27][29] 公司背景与团队 - 创始人季宇为清华90后博士,CCF优博奖得主,曾任华为昇腾AI芯片编译器专家,入选"天才少年"计划[6][35][38][39] - CTO余洪敏为中科院博士,主导过百度昆仑芯、华为车载昇腾芯片等10余款芯片流片与量产[40][41][42] - 获智谱AI、峰瑞资本等明星机构投资,成立两年即实现技术突破[42][43][44] 行业影响 - 改写行业格局,将满血671B模型部署成本从百万级降至10万元级,同类低配方案价格区间原为20-40万元[31][32] - 推动大模型在智能客服、数据分析等场景的普惠应用,为中小团队提供高扩展性AI部署方案[32][33]
英伟达:Blackwell收入超预期,2025年推理爆发主导GPU需求-20250304
第一上海证券· 2025-03-04 10:43
报告公司投资评级 - 买入评级,目标价160美元,较现价有33.17%的上涨空间 [2][3][32] 报告的核心观点 - Blackwell产品大规模出货将推动公司业绩环比持续增长,虽25年上半年受产能限制下调2025财年数据中心收入预测、定单收入确认延迟,但公司需维持快速产品研发及迭代保证竞争力,利润率不会明显上升,预计2026 - 2028财年公司收入CAGR为29.1%,GAAP EPS的CAGR为29.2% [3][32] 根据相关目录分别进行总结 业绩摘要 - 2025财年Q4公司收入393亿美元,同比增长77.9%,高于公司指引与彭博一致预期;毛利率73.0%,环比降1.6ppts,低于彭博一致预期,因Blackwell产能爬坡短期成本高;经营利润240亿美元,同比增长76.5%;GAAP净利润221亿美元,同比增长79.8%,净利润率56.2%,GAAP摊薄每股收益0.89美元,高于彭博一致预期;公司对下季度收入指引中值430亿美元,同比增长65.1%,高于彭博一致预期,GAAP毛利率中值70.6%,低于一致预期,GAAP经营开支52亿美元,预计税率约17% [3][5][6] Blackwell平台产品进展 - Blackwell是公司历史上最快产能爬升的产品,Q4收入110亿美元超预期;2025年下半年出货的Blackwell Ultra和Blackwell系统架构相同,产能爬坡后毛利率有望改善至75%左右;其大模型推理成本比Hopper低20倍,适合推理AI和大规模模型训练,目前思考链大模型推理需求比初代产品提升超100倍,公司认为数据中心将把大部分资本支出用于加速计算和AI [3][10] 各业务情况 - **数据中心业务**:2025财年Q4收入355.8亿美元,同比增长93.3%,计算GPU收入325.6亿美元,同比增长116%,由大模型等需求推动,CSP收入约占一半且同比翻倍,托管GPU的区域云占比增加;网络产品收入30.2亿美元,同比下降9%,因公司产品过渡 [15] - **游戏业务**:2025财年Q4收入25.4亿美元,同比下降11.2%,主要因产能限制,预计一季度有强劲环比增长;一月份CES2025发布GeForce RTX 50系列台式机和笔记本电脑GPU [22][24] - **专业可视化业务**:本季度收入5.1亿美元,同比增长10.4%,因相关公司软件平台接入AI技术推动NVIDIA RTX工作站需求 [26] - **汽车业务**:本季度收入5.7亿美元,同比增长102.8%,来自智能驾驶芯片需求增加,公司称2025年自动驾驶芯片市场空间达50亿美元,未来6年汽车芯片订单140亿美元,汽车行业采用Omniverse及英伟达GPU进行相关开发,丰田将在NVIDIA DRIVE AGX Orin上打造下一代汽车 [26][27] - **OEM与IP业务**:本季度收入1.26亿美元,同比增长40% [29] 公司未来展望 - 微软等大厂2025年资本开支指引同比增长近25%,未来一年内GPU需求强劲;公司软件业务将迎来增长契机,通过相关软件服务扩展市场空间,NIM简化传统企业模型部署,埃森哲利用英伟达支持的AI Agent应用程序减少手动步骤 [20][32] 主要财务报表 - 2024 - 2028财年主营业务收入分别为60922、130497、213582、253562、280876百万美元,呈增长趋势;毛利率分别为72.7%、75.0%、72.5%、73.5%、73.1%;净利率分别为48.8%、55.8%、53.9%、54.7%、54.7%等 [36]
天翼云CPU实例部署DeepSeek-R1模型最佳实践
量子位· 2025-03-03 07:58
英特尔至强处理器在AI推理领域的优势 - 英特尔至强处理器通过AMX加速器显著提升大模型推理性能,在DeepSeek 7B蒸馏模型上实现超过9token/s的生成速率 [12] - 至强6处理器支持T级超大内存,可高效部署DeepSeek-R1 671B满血版模型,单实例单socket部署下达到9.7~10 token/s吞吐量 [13] - CPU方案在GPU资源不足或利用率低的场景下更具成本优势,资源划分粒度更小且硬件获取门槛更低 [7] 天翼云部署实践 - 提供一键部署云主机镜像,内置DeepSeek-R1-Distill-Qwen-7B模型、vLLM推理框架及open-webui前端,5分钟内自动启动服务 [4][5] - 镜像预配置vLLM API接口,支持通过8000端口直接调用模型服务,并可通过修改API_KEY增强安全性 [9] - 测试环境采用24vcpu/64GB内存配置,AMX加速后实现30-60输入token与256输出token的高效处理 [10] 大模型CPU部署性能表现 - DeepSeek-R1 671B满血版在至强6980P处理器(128核)上通过llama.cpp优化实现9.7~10 TPS,双实例部署总吞吐达14.7 TPS [32][33] - 采用Q4_K_M量化版本模型(404.43GB)平衡性能与存储成本,社区同时提供Q8_0(713.29GB)等高精度选项 [26][27] - 通过numactl绑定CPU核心与内存节点、Intel oneAPI编译器优化等技术手段最大化硬件利用率 [32] 英特尔处理器技术升级 - 第五代至强处理器(Emerald Rapids)AI推理性能较前代提升42%,大语言模型场景加速达1.5倍,TCO降低77% [16] - 至强6处理器(Granite Rapids)支持DDR5-6400内存与MRDIMM技术,内存带宽提升至2.3倍,三级缓存达504MB [17][18] - AMX加速器新增FP16支持,配合AVX-512等指令集形成完整AI软件生态,兼容主流开源框架 [18][19] 行业应用价值 - CPU方案有效解决GPU显存不足问题,适用于医疗、金融、零售等需快速接入大模型能力的行业 [2] - MOE结构参数稀疏化特性与CPU计算特点契合,降低算力需求的同时保持模型性能 [14] - xFasterTransformer框架支持多节点分布式部署,兼容vLLM等主流Serving框架,加速大模型应用落地 [20]