Workflow
华为CloudMatrix 384
icon
搜索文档
人工智能研究框架:大模型白热化,应用加速分化
中邮证券· 2025-09-03 11:55
好的,我将为您总结这份人工智能行业研报的关键要点。报告主要观点是AI大模型竞争白热化,多模态研发加速,闭源模型优势重现,同时应用端开始分化,ToB场景率先落地。 报告行业投资评级 - 行业投资评级:强于大市(维持)[1] 报告核心观点 - 大模型领域:多模态技术研发加速,闭源模型在经历开源浪潮后逐步重新确立性能领先优势,并通过“开源+闭源”协同策略构建生态 [2][4] - 算力领域:海内外云服务厂商资本开支持续增长,芯片厂商加速推出新一代GPU和ASIC芯片以满足算力需求 [4][29] - 应用领域:海外AI应用加速分化,具备行业Know-how壁垒且AI能直接赋能业务增长的ToB企业表现更优;ToC领域创意类应用开始挤压传统工具类市场 [4][47] 详细内容总结 一、 大模型:多模态研发加速,闭源模型重获优势 - 多模态技术路线尚未收敛,国内外厂商持续刷新技术标杆:图片生成领域,GPT-4o图像生成功能引发热潮,谷歌Gemini 2.5 Flash Image登顶多个主流图像榜,单图片生成成本仅0.039美元;视频生成领域,阿里、字节等厂商刷新能力高度,谷歌将视频模型推进至实时交互的通用世界模型阶段 [4][12][15][18] - 经历DeepSeek等带来的开源浪潮后,闭源模型凭借资源、人才与技术积累维持性能领先:OpenAI新推出的GPT-5在Artificial Analysis编制的人工智能综合指数上以69分排名第一 [4][27][28] - 闭源厂商推行“开源+闭源”协同策略:OpenAI开源gpt-oss-120b和gpt-oss-20b,谷歌开源Gemma 3系列,xAI开源grok2.5,通过开源上一代或轻量模型打造生态入口,反哺闭源主模型 [4][28] 二、 算力:资本开支提振,芯片竞赛升级 - 海外云厂商资本开支持续增长:微软、谷歌、Meta、亚马逊四者合计资本开支自2023Q3后连续多个季度环比上升;微软25Q2资本开支242亿美元(同比+27%),谷歌将25年capex指引上调至850亿美元(同比+13%),亚马逊25年计划资本支出1000亿美元 [4][31][32] - 国内云厂商加大AI投入:阿里FY26Q1资本开支386.76亿元(同比+220%),并计划未来三年投入3800亿元用于AI;腾讯25年资本开支预计占收入“低两位数百分比”,接近千亿水平;百度25Q2资本开支38亿元(同比+79.41%) [4][34][35] - 芯片厂商加速产品迭代:英伟达架构由Blackwell向Rubin过渡,GB300性能提升50%;AMD推出MI350系列(AI计算性能较MI300X提升4倍);华为发布CloudMatrix 384系统,提供300 PFLOPs的BF16计算能力,达英伟达GB200 NVL72系统的1.7倍 [4][36][39][42][43] - 云端巨头竞相自研ASIC芯片:谷歌推出TPU v6 Trillium,亚马逊以Trainium v2为主力,Meta与Broadcom开发MTIA v2,微软加速Maia系列开发;国内阿里、百度、腾讯等也推出自研方案 [4][46] 三、 应用:海外分化加速,ToB场景聚焦 - AI初创公司货币化速度加快:OpenAI 25年收入有望达116亿美元(同比翻2倍+),8月ARR达120亿美元;Anthropic年化收入增加1亿美元所需时间从21个月缩短至2个月,7月ARR突破50亿美元(为去年12月底的5倍) [47][55] - 企业级Agent落地关键在与业务流程深度结合:2023年中国AI Agent市场规模554亿元,预计2028年达8520亿元(CAGR 72.7%),其中B端市场占比98.5% [47][66] - 美股ToB应用表现分化:Palantir(股价+109.1%)25Q2收入10.04亿美元(同比+48%);Applovin(股价+49.4%)广告业务收入维持60%以上高速增长;SAP(股价+12.8%)25Q2云收入51.3亿欧元(同比+28%),超一半云订单含AI用例 [47][69] - ToC创意类应用挤压传统工具市场:Figma付费用户达45万,其中ARR超10万用户1031家(较23Q1+126%);Canva拥有2.2亿MAU(同比+63%);Canva的ARR增速达44%,高于Adobe的11% [47][77][80] 四、 投资建议 - 建议关注四大方向:AI Agent领域包括鼎捷数智、视源股份、泛微网络等;AI终端领域包括云天励飞、虹软科技、小米集团等;AI算力领域包括寒武纪、工业富联、浪潮信息等;AI多模态领域包括万兴科技、当虹科技、中科创达等 [4][82]
计算机行业周度:英伟达GB300上线-20250721
国新证券· 2025-07-21 12:20
报告行业投资评级 - 看好 [6] 报告的核心观点 - 本周(7.14 - 7.18)计算机(申万)板块上涨2.12%,跑赢沪深300指数1.03个百分点,涨幅排名位列申万行业第8位 [1][13] - 英伟达GB300服务器是AI算力基础设施新里程碑,其GB300 NVL72系统性能优势显著,产业化进程推动供应链调整,市场需求增长 [2][18][19] - 超节点技术路径竞争中,国产方案有差异化优势但多机柜弹性扩展能力弱于英伟达 [23] - 虽存在挑战,但GB300将引领AI算力向ExaFLOPS级别迈进,相关产业如光通信、PCB等迎来投资机会 [24][26] 根据相关目录分别进行总结 本周市场回顾 - 计算机(申万)板块本周(7.14 - 7.18)上涨2.12%,沪深300指数上涨1.09%,计算机板块跑赢沪深300指数1.03个百分点,涨幅排名第8 [1][13] - 计算机行业335家上市公司中225家收涨,涨幅前3为熙菱信息(+27.08%)、ST立方(+26.86%)、延华智能(+24.04%),跌幅前3为大智慧(-17.51%)、金证股份(-10.85%)、京北方(-10.61%) [16] 本周关注 - GB300服务器技术进展与产业链影响分析 GB300服务器的技术进展与性能优势 - 英伟达GB300服务器整合三大关键技术,GB300芯片采用台积电4NP制程,集成2080亿晶体管,通过10TB/s片间互联实现性能突破 [19] - NVL72系统以72颗GPU和36颗Grace CPU构建单机柜算力单元,理论峰值算力达1.1 ExaFLOPS,较上一代Hopper架构有显著提升 [19] - 液冷技术规模化应用,以戴尔服务器为例,单个机柜可承载192个GPU,散热效率提升30% [20] 供应链动态与市场扩张 - 2025年Q2,GB200 NVL72机架月产能达2000 - 2500台,Q2总产量预计5000 - 6000台,鸿海目标交付3000 - 4000台,广达GB300计划9月量产 [2][21] - 采购主力为北美四大云厂商及OpenAI,中东“主权AI”订单成新增量,TrendForce预测2025年英伟达GPU总出货量约800万颗,GB200相关芯片占比50% [21] 超节点技术路径的竞争与国产化突破 - 英伟达GB200 NVL72通过NVLink 5.0实现72个GPU全互联,单节点带宽1.8TB/s;华为CloudMatrix 384连接384个昇腾NPU,节点间延迟<1μs且带宽衰减<3% [23] - 国产方案在推理场景有优势,华为CM384算力利用率达55%,较传统方案提升50%,但多机柜弹性扩展弱于英伟达模块化设计 [23] 挑战与未来展望 - 光铜之争、液冷技术路径分化、AMD技术处于实验室阶段等挑战存在,但GB300仍将引领AI算力发展 [24] - 华为和英伟达新技术有发展前景,技术路线存在生态开放性博弈,GB300市场渗透速度依赖生态开放策略 [25] 投资线索 - 光通信:GB300推动1.6T光模块普及,传输速率提升2倍,功耗降低30% - 35%,2025年全球高端光模块需求提升 [4] - 内存与封装技术:GB300核心组件集成HBM3e内存,依赖2.5D/3D先进封装技术,CoWoS封装产能是供应瓶颈 [27] - PCB升级:GB300推动服务器PCB向高多层演进,2025年AI专用PCB产值预计大幅增长 [28] - 液冷与IDC基建:单机柜功率突破使液冷渗透率从2024年的约10%提升至2025年的30%以上,高端AI训练服务器领域超90% [7] - 供电与配套革新:GB300 NVL72机柜标配相关模块及电容,通过分级响应机制解决电压波动问题 [7] 本周要闻 - HashKey Exchange对接Coins.ph系统布局东南亚市场,为两地用户提供便捷金融服务 [29] - 黄仁勋宣布美国批准H20芯片销往中国,英伟达将推出RTXpro GPU [31] - Meta将建设多个吉瓦级数据中心,首个预计2026年上线,受此消息影响股价上涨1.1% [32][33] - 百度萝卜快跑与Uber达成战略合作,将拓展至全球多个市场 [34] - OpenAI引入谷歌构建混合云生态,对谷歌云业务是利好 [36] - 美国国会批准稳定币法案待特朗普签字生效,众议院通过加密货币监管框架法案待参议院审议 [38][39]
计算机行业周报:超节点:从单卡突破到集群重构-20250709
申万宏源证券· 2025-07-09 07:44
报告行业投资评级 - 看好 [3] 报告的核心观点 - 大模型参数爆炸式增长驱动下,算力需求从单点转向系统级整合,超节点在机柜级互联与跨机柜组网技术上取得突破,单柜高密度与多机柜互联双向扩展,背后是通信协议与工程成本的平衡 [4] - 国产超节点方案以华为 CloudMatrix 384 为代表,实现算力规模突破,打破单卡性能瓶颈,验证了国产方案在大规模组网中的工程能力 [4] - 超节点产业化将重塑算力产业链分工,催生服务器整合、光通信增量及液冷渗透提升等投资机会,芯片厂商纵向整合趋势明显 [4] - 市场当前对超节点的认知存在两大预期差,一是低估国产方案在推理场景的性价比优势,二是忽视算力网络架构变革对产业链的重构 [4] - 建议关注光通信、网络设备与芯片、数据中心产业链、铜连接、AI 芯片与服务器供应商等领域相关标的 [4] 根据相关目录分别进行总结 超节点:AI 算力网络新趋势 - Scale up 和 Scale out 是算力系统扩容的两个重要维度,分别追求硬件紧密耦合和弹性扩展,二者在协议栈、硬件、容错机制上存在本质差异,通信效率不同 [15] - 英伟达在 Hopper GPU 一代尝试突破服务器架构、在机柜层级拓展 Scale up 系统,2024 年推出的 GB200 NVL72 是较为成熟的超节点产品,通过单层 NVSwitch 实现全互联,应对通信峰值能力显著提升 [27][32] - AMD 的 IF128 方案尝试融合以太网技术,打破 Scale-up 与 Scale-out 边界,预计将在 26H2 推出搭载 128 个 MI450X 的超节点产品 [38][43] - 特斯拉 Dojo 专为视频等视觉训练数据打造,采用 2D Mesh 拓扑结构,但进展不及预期,其封闭生态和 2D Mesh 拓扑结构为重要掣肘 [50][67] 超节点掣肘?华为的解答 - 超节点设计需考虑模型需求、IDC 实践和成本等因素,在模型角度 72 卡规模以上的 Scale up 节点是较优选择,未来更大规模的超节点预计是必然选择;在 IDC 实践角度,模块化布局利于交付和运维;在成本角度,光通信等组网成本、系统复杂度和维护制约了超节点 Scale up 的规模设计 [72][77][79] - 华为 CloudMatrix 384 超节点通过两层 UB Switch 实现全互联,形成无带宽收敛的 Clos 网络拓扑,实测数据显示其对性能影响较小,该超节点算力为 NVL72 的 1.7 倍,内存为 3.6 倍,更适合未来 AI 工作负载 [82][92][95] - 华为 CM384 机柜为推理而生,针对 Prefill 和 Decode 两大阶段进行了针对性优化;深度适配 DeepSeek,机柜内资源调度灵活性强,但多机柜灵活性差;在国产 AI 芯片方案中已经具备一定性价比,体现在单算力的吞吐 [100][107][119] 产业链影响:分工细化,各环节均有增量 - 服务器产业链分工细化,AI 芯片厂商纵向整合,提升自身通信、存储、软件等能力是确定趋势,代工产业链分工可能进一步分化为板卡设计代工供应商、以及机柜代工供应商,相关标的包括海光信息、中科曙光等 [123][128] - 光通信方面,国产超节点方案带来光模块增量,预计增加 400G 或 LPO 等成本优化方案的采购,同时加速向 800G 演进,整体光模块的需求比最高可达 1:18,相关标的包括华工科技、光迅科技等 [129][139] - 铜连接方面,华为 UB-Mesh 网络架构具备降低成本、增强可靠性等特性,更长时间维度看,光通信是 Scale up 网络需求的演进方向,光电混合是当前重要架构,相关标的包括意华股份、瑞可达等 [140][144] - IDC 产业链方面,以 Cloud Matrix 为代表的超节点方案预计将增加 AIDC 需求,液冷是必要选项,相关标的包括润泽科技、奥飞数据等 [149][151] 重要公司估值 - 报告给出了海光信息、中科曙光、浪潮信息等多家公司 2024A-2027E 的归母净利润及 PE 等估值数据 [153]
GPU集群怎么连?谈谈热门的超节点
半导体行业观察· 2025-05-19 01:27
超节点服务器概念与背景 - 超节点服务器是应对AI算力需求爆炸式增长的最优解,通过高效整合海量计算单元(CPU/GPU/TPU)实现前所未有的计算密度和效率[4][6] - AI模型参数从亿级跃升至万亿级,传统服务器显存和算力无法满足需求,模型并行成为必然选择但受限于服务器间网络带宽瓶颈[9] - 超节点三大核心特征:极致计算密度(单空间最大化算力)、强大内部互联(NVLink等技术)、AI负载深度优化(软硬件协同设计)[10] 技术演进历程 - 早期追求服务器密度的尝试(如1999年谷歌"软木板服务器")与超节点有本质区别,前者侧重资源池化而非算力整合[12] - GPU并行计算能力崛起成为关键转折点,Transformer等大模型推动NVLink等高速互联技术发展[13] - 英伟达DGX/HGX系列将8GPU+NVSwitch高度集成,形成典型超节点单元[14] 行业需求驱动因素 - AI大模型遵循规模定律(Scaling Law),模型规模与训练数据量增长直接带来算力需求指数级上升[16] - 长序列处理需求提升模型性能但显存需求急剧增加,2025年斯坦福报告显示训练算力年增长率达10倍[18][20] - 传统扩展方式面临三大瓶颈:内存墙(数据供给不足)、规模墙(集群扩展收益递减)、通信墙(并行计算通信开销)[21] 技术优势与解决方案 - 构建超大带宽域(HBD)实现纵向扩展(Scale-Up),8GPU服务器内通信带宽达130TB/s[22][37] - 集中式供电方案提升效率,液冷技术使PUE优于传统风冷,长期运营成本降低[24][26] - 模块化设计优化运维,大型风扇墙和集成电源组件比传统方案节能30%以上[26][29] 关键技术挑战 - 供电系统需应对100kW+机柜功耗,电压从48V向400/800V演进以减少线路损耗[31] - 冷却系统采用冷板式/浸没式液冷应对单芯片1000W+ TDP,散热效率提升5-10倍[32] - 网络系统需平衡铜缆/光缆成本与性能,InfiniBand和RoCE成为主流互联方案[32][37] 行业技术现状 - 英伟达GB200 NVL72集成72个Blackwell GPU,采用NVLink实现36CPU+72GPU逻辑统一,定义行业标准[35][37] - 华为CloudMatrix 384通过384颗昇腾芯片全光互联实现自主可控,但功耗较高[38][41] - 供电技术向48V直流母线槽演进,液冷采用直触式冷板技术,网络倾向RoCE以太网[33][34][37] 未来技术方向 - 数据中心供电向400V/800V高压直流(HVDC)转型,减少AC-DC转换损耗[40][43] - 下一代液冷技术包括微流控冷却(芯片表面蚀刻微通道)和相变液冷(利用潜热)[45] - 共封装光学(CPO)技术将光模块集成至芯片封装,提升I/O带宽密度并降低功耗[49] 行业影响与展望 - 超节点是AI算力基础设施的集大成者,融合芯片/互联/制冷/供电等尖端技术[46] - 技术演进将催生全新系统架构,如计算/内存/存储资源池化通过光路互联[49] - 行业正从单机柜级向跨机柜级超节点发展,推动AI集群算力规模突破现有上限[22][41]