Workflow
Feynman芯片
icon
搜索文档
英伟达封死了ASIC的后路?
半导体行业观察· 2025-12-29 01:53
英伟达与Groq的交易性质与战略意图 - 英伟达与Groq达成了一项“非独家许可协议”,而非全面收购,旨在规避反垄断监管审查[18] - 该交易涉及约200亿美元,用于获取Groq的知识产权和关键人才,是一种典型的“反向收购”策略[19][21] - 交易使英伟达能够将Groq的低延迟处理器技术集成到其AI工厂架构中,扩展其推理和实时工作负载服务能力[18] Groq LPU技术的核心优势 - LPU是Groq针对推理工作负载的解决方案,其核心优势在于确定性执行和片上SRAM作为主要权重存储[10] - Groq芯片配备230MB片上SRAM,提供高达80TB/s的片上内存带宽,显著降低延迟并提升吞吐量[10][11] - 使用SRAM相比HBM能显著降低每比特能耗,尤其在解码这类内存密集型工作负载中至关重要[14] - LPU通过编译时调度实现确定性周期,消除内核间时间差异,确保流水线完美利用,实现高吞吐量[14] 英伟达整合LPU的技术路径与潜在方案 - 专家AGF认为,英伟达可能通过台积电的混合键合技术,将LPU单元堆叠在下一代Feynman GPU计算芯片上[1][3] - 预计LPU模块将于2028年首次出现在Feynman芯片上,该芯片预计采用台积电A16工艺[5] - 采用分离的SRAM芯片并堆叠在主计算芯片上,可以解决SRAM在先进工艺节点上缩放停滞和成本高昂的问题[5][6] - 另一种集成方案是将LPU作为机架级推理系统的一部分,与GPU协同工作,由GPU处理预填充/长上下文,LPU专注于解码[16] 行业背景:推理需求崛起与竞争格局 - 人工智能行业计算需求正从训练转向推理,推理是超大规模数据中心的主要盈利点[9] - 推理,特别是解码阶段,需要确定性和低延迟,这与训练更看重吞吐量的需求不同[9][10] - 谷歌等公司已推出专注于推理的ASIC芯片,被视为英伟达的替代品,加剧了推理市场的竞争[9] 英伟达Feynman芯片的潜在架构与影响 - Feynman芯片预计采用台积电A16工艺,配备背面供电和全GAA结构[5] - 通过混合键合技术堆叠SRAM/LPU芯片,可以在保留HBM用于大容量存储的同时,修复低延迟解码的模型浮点利用率[5][6] - 这种集成方案旨在为Feynman芯片在有利工作负载下带来巨大的推理性能提升[5] - 该技术路径若成功,可能使其他厂商的专用集成电路在推理市场面临巨大挑战[2][6]
英伟达:GTC密集发布新产品,数据中心等产品继续升级-20250320
交银国际证券· 2025-03-20 02:40
报告公司投资评级 - 买入 [2][6][12] 报告的核心观点 - 生成式人工智能或正向服务式和物理式人工智能演进,CSP资本支出预计从2025年超3000亿美元增长到2028年的1万亿美元,英伟达参与垂直行业人工智能改造,展望未来垂直行业实体工厂都将有对应的“AI工厂” [2] - 英伟达延续每年更新产品,产品路线图显示性能较之前显著升级,若没有特别出口政策,中国内地客户或是2H25 Blackwell Ultra上市前Hopper的主要客户,维持对英伟达FY26/27调整后EPS 4.74/6.28美元的预测、买入评级和168美元目标价 [6] 相关目录总结 公司基本信息 - 收盘价115.43美元,目标价168.00美元,潜在涨幅+45.5% [1] - 52周高位149.43美元,52周低位76.20美元,市值2,816,492.00百万美元,日均成交量297.77百万,年初至今变化-14.04%,200天平均价130.91美元 [4] 财务数据 |项目|2024|2025|2026E|2027E|2028E| |----|----|----|----|----|----| |收入(百万美元)|60,922|130,497|211,723|270,548|311,585| |同比增长(%)|125.9|114.2|62.2|27.8|15.2| |净利润(百万美元)|32,312|74,265|117,514|155,099|180,404| |每股盈利(美元)|1.30|2.99|4.74|6.28|7.30| |同比增长(%)|288.2|131.1|58.2|32.6|16.3| |市盈率(倍)|89.1|38.6|24.4|18.4|15.8| |每股账面净值(美元)|1.72|3.20|6.77|11.91|18.05| |市账率(倍)|66.98|36.09|17.04|9.69|6.39| |股息率(%)|0.0|0.0|0.0|0.0|0.0| [5] 产品升级 - 英伟达认为数据中心服务器内部Scale - up比服务器间的Scale - out更重要,通信与计算单元在机架分离成主流架构,发布新开源操作系统Dynamo,或成博通VMWare软件竞争对手 [6] - 数据中心加速芯片路线图:2H25推出Blackwell Ultra(GB300),2H26上市Vera Rubin,2H27上市Rubin Ultra,之后产品性能有明显升级,Feynman为2028年之后产品代号 [6] - 为应对Scale - out需求,交换机产品Spectrum - X和Quantum - X预计2H25和2H26上市,Quantum - X或首次使用光电混合封装CPO技术,台积电和内地光模块厂商或受益 [6] 产品性能对比 |GPU|NVL|GPU dies数量|机架数|token算力| |----|----|----|----|----| |H100|8|45K|1400|400M/s| |GB200|72|85K|800|12,000M/s| [7] 产品路线图 |系统|NVL|NVL带宽|上市时间|推理算力|训练算力|HBM型号|HBM带宽|Fast Memory| |----|----|----|----|----|----|----|----|----| |Blackwell Ultra|72|130 TB/s|2H25|1.1 EF FP4|0.36 EF FP8|HBM3e 288GB对应8TB/s| |40 TB| |Rubin|144|260 TB/s NVL6|2H26|3.6 EF FP4|1.2 EF FP8|HBM4|13 TB/s|75 TB| |Rubin Ultra|576|1.5 PB/s NVL7|2H27|15 EF FP4|5 EF FP8|HBM4e|4.6 PB/s|365 TB| [7] 交换机产品路线图 |产品|上市时间|面向标准|CPO|端口数|性能|主要技术协议| |----|----|----|----|----|----|----| |Spectrum - X|2H25|Ethernet|否|256 X 200G|1.6X对于传统Ethernet|RDMA/RoCE| |Quantum - X 800 (Q3400 - RA 4U)|2H26|Infiniband|是|144 X 800G|2X速度,5X延展性|SHARP v4| [8]