AI推理

搜索文档
英伟达GTC Keynote直击
2025-03-19 15:31
纪要涉及的行业和公司 - 行业:数据中心、科技股、算力产业链 - 公司:英伟达、台积电科沃斯、北美五大科技公司(Amazon、Microsoft、Apple、Google)、GM、小米、联想、比亚迪、中兴、阿里巴巴、腾讯、美团 纪要提到的核心观点和论据 数据中心产品 - 日本数据中心产品推出时间和 HBM 配置低于预期,第一代预计 2026 年推出,第二代预计 2027 年推出,第一代 HBM 容量 288GB 低于预期的 384GB [2][3][4] - 英伟达预计 2026 年推出 Rubin 架构,晚于预期的 2025 年,Rubin Ultra 展示新架构,GPU 单元增至 576 个,支持 NVLink 6 和 CX9 交换机,每个单元可搭载高达 1TB HBM [3][5] - CPO 技术通过集成光模块缩短传输距离、提高速度,新一代 Spectrum X 今年下半年随 Blacker 推出,Quantum X 明年下半年伴随下一代日本数据中心产品推出 [3][6] - GTC 大会提到 DGX BasePOD 和 DGX Station 等小型计算机项目,面向开发者市场,采用 Black Box 芯片,支持 FP4 精度及超 1,000 TOPS AI 计算能力 [3][7] 算力需求与收入 - 预训练模型规模迅速扩大,推动算力需求大幅增长,模型规模每年翻十倍,远超摩尔定律降本速度,英伟达数据中心收入激增,CSP 资本开支过去两年翻倍 [3][9][10] 推理阶段 - GTC 大会强调推理阶段重要性,如 DPC 模型带来需求增长,但应用场景能否推动推理需求仍需观察,英伟达通过软硬件降低 AI 推理成本,目标是降低 token 生成成本 [3][11][12] 科技股市场 - 今年初以来中国科技股跑赢美国科技股,从 Deep CQ 发布后已跑赢美国七大科技公司 44 个百分点,目前美股与 A 股差距缩小至约三十几个百分点,未来半年有望进一步拉近,可能出现美股下跌、港股上涨的“东升西降”趋势 [13] 重要产品发布及影响 - GTC 大会发布 GB300(现称 Blackberry Ultra 72)、Rubin 等产品,展示英伟达至少到 2028 年的 GPU 加速计算演进路线,新一代 CPU 和交换机系统将未来导入,对产业链产生深远影响 [14] 资本开支与出货量 - 2025 年北美五大科技公司资本开支预计比 2024 年增长 30%,较 2023 年几乎翻倍,下修机会不大 [3][16] - 台积电科沃斯产能预计到 2025 年底达 775,000 片,英伟达 GGB200 和 GB300 出货量预计在 2.5 万 - 3 万台之间,比 2024 年底的 4 万台有所下降,但金额能与五家厂商规模匹配 [17] 硬件需求与服务器价值量 - GB200 和 GB300 在 HBM 使用、功耗、算力、生产方式等方面有变化,GB300 使 CSP 厂商设计自由度提高 [15][18] - GB300 服务器价值量受影响,新一代产品对光模块需求有影响,主要在 2026 年体现 [19] 算力产业链前景 - 2025 年英伟达算力卡出货量预计在 25,000 - 23,000 之间,与现有 M72 服务器规模相当,带动工业互联等领域收入增长,但产业链仍面临压力 [20] 其他重要但可能被忽略的内容 - 英伟达展示与自动驾驶、机器人相关新合作与开源模型,如与 GM 合作推进自动驾驶技术,更多相关信息预计在 Computex 展会上公布 [8]
深度解读黄仁勋GTC演讲:全方位“为推理优化”,“买越多、省越多”,英伟达才是最便宜!
硬AI· 2025-03-19 06:03
英伟达GTC 2025技术创新与行业影响 核心观点 - 英伟达通过推理Token扩展、推理堆栈与Dynamo技术、共封装光学(CPO)等创新显著降低AI总拥有成本,巩固其在全球AI生态系统的领先地位 [2][5] - 三条扩展定律(预训练、后训练、推理时)协同作用推动AI模型能力持续提升 [8][10] - 硬件性能提升与成本下降形成"杰文斯悖论"效应:成本降低刺激需求增长而非抑制 [10][12] 推理Token扩展 - 现有模型Token数超100万亿,推理模型Token量达20倍,计算量高出150倍 [12] - 测试阶段需数十万Token/查询,每月数亿次查询;后训练阶段单个模型需处理数万亿Token [13] - 代理能力AI推动多模型协同工作,解决复杂问题 [13] 黄仁勋数学规则 - 第一条规则:FLOPs数据以2:4稀疏度计,实际密集性能为公布值的2倍(如H100 FP16密集性能1979.81 TFLOPs) [15] - 第二条规则:带宽按双向计量(如NVLink5报1.8TB/s=900GB/s发送+900GB/s接收) [16] - 第三条规则:GPU数量按封装中芯片数计(如NVL144含72个封装×2芯片) [16] GPU与系统路线图 Blackwell Ultra B300 - FP4 FLOPs密度较B200提升超50%,内存容量升至288GB/封装(8×12-Hi HBM3E),带宽维持8TB/s [20] - 采用CoWoS-L封装技术,16个GPU封装组成B300 NVL16系统 [21][22] - 引入CX-8 NIC(800G吞吐量),比CX-7提升一倍 [22] Rubin系列 - 采用台积电3nm工艺,50 PFLOPs密集FP4性能(较B300提升3倍) [25][26] - 关键改进:I/O芯片释放20%-30%面积、1800W TDP、128×128张量核systolic array [27][28] - HBM4容量288GB(8×12-Hi),带宽13TB/s(总线2048位,6.5Gbps针速) [32] Rubin Ultra - 性能翻倍至100 PFLOPs密集FP4,HBM4E容量1024GB(16×16层32Gb DRAM) [36] - 系统总高速存储365TB,Vera CPU配1.2TB LPDDR [37] - 采用Kyber机架架构,NVL576配置含144封装×4芯片=576计算芯片 [39][44] 推理堆栈与Dynamo技术 - Smart Router实现多GPU负载均衡,避免预加载/解码阶段瓶颈 [56][58] - GPU Planner动态调整资源分配,支持MoE模型负载均衡 [59][60] - NCCL小消息传输延迟降低4倍,NIXL引擎实现GPU-NIC直连(免CPU中转) [61][62] - NVMe KV-Cache卸载管理器提升56.3%缓存命中率,释放预加载节点容量 [65] CPO技术突破 - 功耗显著降低:400k GB200 NVL72集群总功耗节省12%,收发器功耗占比从10%降至1% [75] - 网络扁平化:三层→两层拓扑,Quantum X-800 CPO交换机提供144×800G端口 [76] - 长期潜力:提升GPU扩展网络基数,支持超576 GPU的规模化部署 [77] 成本效益与行业地位 - Blackwell较Hopper性能提升68倍,成本降87%;Rubin预计性能提升900倍,成本降99.97% [69] - 技术迭代速度使竞争对手难以追赶,形成平台优势 [79][80] - CPO、机架设计等创新持续扩大与竞争对手差距 [78][79]
速递|从训练到推理:AI芯片市场格局大洗牌,Nvidia的统治或有巨大不确定性
Z Finance· 2025-03-14 11:39
AI芯片市场格局转变 - AI计算需求从训练转向推理,DeepSeek的R1、OpenAI的o3和Anthropic的Claude 3.7等推理模型消耗更多计算资源 [2] - 摩根士丹利预计未来几年美国数据中心75%以上的电力与计算需求将用于推理 [3] - 巴克莱预测前沿AI推理资本支出将从2025年的1226亿美元跃升至2026年的2082亿美元,超过训练支出 [4] Nvidia面临的竞争挑战 - 初创公司如Cerebras、Groq及科技巨头谷歌、亚马逊等正集中力量挑战Nvidia的霸主地位 [2] - 巴克莱预计Nvidia在长期内仅能满足50%的推理需求,到2028年竞争对手或争夺近2000亿美元市场 [5] - 云计算提供商希望减少对Nvidia的依赖,推动更高效芯片发展 [5] Nvidia的应对策略 - 公司CEO黄仁勋强调Blackwell芯片优化推理性能,并指出推理需求较初期增长100倍 [6][7] - Nvidia的CUDA软件生态构成竞争壁垒,其推理性能过去两年提升200倍 [6][8] - 公司称数亿用户通过其数百万GPU访问AI产品,架构灵活性支持多样化应用场景 [8] 推理技术发展趋势 - 推理任务需更大内存处理复杂查询,为替代Nvidia GPU提供机会 [7] - Cerebras芯片在延迟表现上优于竞品(如1秒生成答案 vs OpenAI的40秒) [8] - 推理加速器需针对特定AI模型优化,但通用GPU在架构变化时更具灵活性 [9][10] 行业成本与创新动态 - OpenAI CEO表示AI使用成本每12个月下降约10倍,推动使用量激增 [7] - DeepSeek的v3和R1模型通过架构创新降低推理成本 [7] - 初创公司Mistral采用Cerebras芯片加速其聊天机器人Le Chat [8]
英伟达电话会全记录,黄仁勋都说了什么?
华尔街见闻· 2025-02-27 11:09
核心观点 - AI推理需求将远超当前大语言模型(LLM)的计算需求,可能需要比现有计算能力高出数百万倍 [1] - Blackwell系列芯片供应链问题已完全解决,Blackwell Ultra计划于2025年下半年发布 [1] - 公司预计到2025年年底利润率将在70%-80%区间中部 [2] - 数据中心的资本投资持续增长,AI将成为数据中心的主要工作负载 [13] - 企业AI、代理AI和物理AI等新兴领域将推动长期需求增长 [14] 财务表现 - 2025财年第四季度收入为393亿美元,环比增长12%,同比增长78% [32] - 2025财年收入为1305亿美元,较上一财年增长114% [32] - 数据中心收入为1152亿美元,较上一财年翻了一番 [32] - 第四季度数据中心收入达到创纪录的356亿美元,环比增长16%,同比增长93% [32] - Blackwell产品上个季度实现了110亿美元的收入 [8] - GAAP毛利率为73%,非GAAP毛利率为73.5% [43] 产品与技术 - Blackwell架构为推理AI设计,推理性能比Hopper提升25倍,成本降低20倍 [6] - Blackwell的生产涉及350个工厂,150万个组件 [8] - 大型云服务提供商如Azure、GCP、AWS和OCI已经开始部署Blackwell系统 [9] - 公司致力于在两年内将推理成本降低200倍 [36] - Blackwell的FP4 Transformer引擎和NVLink 72扩展结构使处理推理AI模型的速度比Hopper快25倍 [84] 市场需求 - 推理需求正在加速增长,受到测试时扩展和新的推理模型如DeepSeek-R1的推动 [34] - 长思考推理AI可能需要比一次性推理多100倍的计算量 [34] - 训练后的模型定制和微调的总体计算需求可能比预训练高出几个数量级 [34] - 企业收入同比增长了近两倍,得益于对模型微调、RAG和代理AI工作流程的加速需求 [38] - 汽车垂直业务收入预计在本财年将达到约50亿美元 [39] 行业趋势 - AI已成为主流技术,广泛应用于金融服务、医疗保健等行业 [21] - 未来的计算机将是加速的,未来的计算机将基于AI [69] - 公司预计AI将从数字世界扩展到物理世界,推动机器人技术和物理AI的发展 [38] - 全球各国都在构建自己的AI生态系统,对计算基础设施的需求激增 [39] - 初创公司的活跃和创新表明AI市场潜力巨大,需求将持续强劲 [15] 地理分布 - 中国市场的比例保持稳定,大约是出口管制之前的一半 [68] - 由于Blackwell的初步推广,美国的数据中心收入环比增长最为强劲 [39] - 法国的2000亿欧元AI投资和欧盟的2000亿欧元AI计划正在重新定义全球AI基础设施建设 [39] - 中国数据中心的销售额仍远低于出口管制开始时的水平 [40] 产品路线图 - Blackwell Ultra计划在下半年推出,将带来新的网络、内存和处理器等改进 [16] - Blackwell Ultra将无缝对接现有系统架构,继续推动AI基础设施的发展 [18] - 公司与客户和供应链紧密合作,确保从Blackwell到Blackwell Ultra的平稳过渡 [17] - 下一代产品Vera Rubin正在准备中,将带来巨大的性能飞跃 [60] 客户案例 - NAP利用英伟达TensorRT将其截图功能的推理吞吐量提升了三倍,并削减了66%的成本 [35] - Perplexity每月处理4.35亿次查询,并通过英伟达Triton推理服务器将推理成本降低了三倍 [35] - 微软必应利用英伟达TensorRT在视觉搜索中实现了5倍的速度提升 [35] - Meta的Andromeda广告引擎运行在Grace Hopper超级芯片上,将推理吞吐量提升了3倍 [37] - 现代汽车集团宣布将采用英伟达技术来加速自动驾驶汽车和机器人技术的发展 [39]
英伟达财报:利润暴增80%!
国芯网· 2025-02-27 04:39
国芯网[原:中国半导体论坛] 振兴国产半导体产业! 不拘中国、 放眼世界 ! 关注 世界半导体论坛 ↓↓↓ 2月27日消息, 英伟达公布了2025财年第四季度财报, Q4收入达到了393亿美元,其中净利润 220.91亿美元,同比增长80%! 调整后的每股收益为0.89美元,均超过了分析师预期的380.5亿美元和0.84美元。此外,英伟达预计第一 季度收入将达到430亿美元,远高于分析师预测的417.8亿美元,展现出强劲的增长势头。 在报告中,英伟达CEO黄仁勋强调,Blackwell GPU的需求依然强劲。Blackwell是英伟达最新的AI GPU 系列,由于其复杂的制造工艺,订单已推迟到今年下半年交付。黄仁勋表示:"AI推理需求的增长使得 计算需求增加,训练模型变得更智能,长时间思考让答案更精确。" 然而,尽管收入和每股收益均超过了预期,英伟达的毛利率依然面临压力。第四季度,公司的调整后毛 利率为73.5%,较去年下降了1.5个百分点。财务总监科莱特·克雷斯(Colette Kress)解释称:"毛利率的 下降主要是由于数据中心产品的复杂性提升以及生产成本增加。" 对于第一季度的毛利率,英伟达预计将为7 ...
兴证海外TMT英伟达FY25Q4业绩会纪要
2025-02-27 01:29
纪要涉及的公司 英伟达 纪要提到的核心观点和论据 - **业绩表现** - 收入 393.31 亿美元(YoY+78%,QoQ+12%),指引区间为 367.5 - 382.5 亿美元,一致预期为 381.01 亿美元[2] - GAAP 毛利率 73.0%(YoY - 3.0pcts,QoQ - 1.6pcts),指引区间为 72.5% - 73.5%;Non - GAAP 毛利率 73.5%(YoY - 3.2pcts,QoQ - 1.5pcts),指引区间为 73.0% - 74.0%[4] - GAAP 净利润 220.91 亿美元(YoY + 80%,QoQ + 14%),市场一致预期为 194.17 亿美元;Non - GAAP 净利润 220.66 亿美元(YoY + 71%,QoQ + 10%),市场一致预期为 209.76 亿美元[4] - **业务表现** - **数据中心业务**:收入 355.80 亿美元(YoY + 93%,QoQ + 16%),FY25Q4 blackwell 收入 110 亿美元,是历史增长最快的产品,50%的 blackwell 交付给 CSP 客户,过去两年公司已将推理成本降低 200 倍[2][3] - **计算业务**:计算产品收入 325.56 亿美元(YoY + 116%,QoQ + 18%)[2][4] - **网络业务**:网络产品收入 30.24 亿美元(YoY - 9%,QoQ - 3%)[2][4] - **游戏业务**:收入 25.44 亿美元(YoY - 11%,QoQ - 22%)[4] - **专业可视化业务**:收入 5.11 亿美元(YoY + 10%,QoQ + 5%)[4] - **汽车与自动驾驶业务**:收入 5.70 亿美元(YoY + 103%,QoQ + 27%)[4] - **OEM&其他业务**:收入 1.26 亿美元(YoY + 40%,QoQ + 30%)[5] - **计算与网络部门**:收入 360.36 亿美元(YoY + 101%,QoQ + 16%)[5] - **图像部门**:收入 32.95 亿美元(YoY - 22%,QoQ - 19%)[5] - **资本配置**:本季度通过回购和现金股息返还 81 亿美元[6] - **FY1Q26 指引** - 收入:421.4 - 438.6 亿美元,中值 430 亿美元,市场一致预期为 420.68 亿美元[6] - GAAP 毛利率 70.1% - 71.1%;Non - GAAP 毛利率 70.5% - 71.5%[6] - GAAP 运营费用 4 亿美元;Non - GAAP 运营费用 4 亿美元[6] - GAAP/Non - GAAP 税率 16% - 18%[6] - **问答环节观点** - **训练与推理**:推理计算量增长快,Blackwell 设计考虑推理需求,训练和推理架构可互换[7] - **GB200 爬坡**:GB200 顺利爬坡,上季度获 110 亿美元相关收入,很多客户已收到产品[8] - **毛利率展望**:随着 blackwell 爬坡,毛利率会回到 mid 70%,预计下半年实现[9] - **需求可持续性**:中期数据中心建设持续,长期软件将基于 GPU 运作,AI 处于早期,未来应用和生态会增多[10] - **blackwell ultra 进度**:预计下半年推出,与第一款 blackwell 架构相近,rubin 过渡会提前准备[12] - **GPU 与 ASIC 竞争**:GPU 通用、擅长端到端、性能有优势,新芯片方案需考虑商业意义[13] - **地缘政治风险**:中国上季度占比约 7%,较管制前下降一半,全球 AI 需求刚开始[14] - **云、企业客户 AI 芯片增速**:云客户部分算力用于内部任务,企业客户长远需求更大,如汽车产业[14] - **旧架构 GPU 角色**:ampere 等旧 GPU 可运行简单工作负载,与新 GPU 兼容[15] - **毛利率改善与关税影响**:blackwell 爬坡后会优化组件环节,长期推理消耗计算资源趋势延续[15][16] 其他重要但是可能被忽略的内容 - blackwell 专门为 AI 推理设计 blackwelll superchargers 推理模型,与 H100 相比,token 吞吐量提升 25 倍,成本下降 20 倍[2] - 中国市场上季度占比与过去几季无不同,较管制前下降一半,约占 7%[14]
英伟达 和预期的数一模一样
小熊跑的快· 2025-02-26 23:17
财务表现 - 2025年Q4收入393亿美元 环比增长12% 同比增长78% 全年收入1305亿美元 同比增长114% [1] - 2026Q1收入指引430亿美元 环比增长2% 毛利率预计70.6%至71% [1] - 2025财年数据中心收入1152亿美元 同比增长超一倍 Q4数据中心收入356亿美元创纪录 环比增长16% 同比增长93% [2] - 2025财年游戏收入114亿美元 同比增长9% Q4游戏收入25亿美元 环比下降22% 同比下降11% [2] - 2025财年专业可视化收入19亿美元 同比增长21% Q4收入5.11亿美元 环比增长5% 同比增长10% [2] - 2025财年汽车领域收入17亿美元 同比增长55% Q4收入5.7亿美元创纪录 环比增长27% 同比增长103% [2] 业务亮点 - Blackwell架构贡献单季度110亿美元收入 [3] - 推理能力显著提升 Coca-Cola查询吞吐量翻三倍 推理成本减少到6% [3] - 推出100,000个GPU集群基础实例 已用于推理和模型定制需求 [3] - 金融 医疗和零售等垂直行业对AI推理平台需求旺盛 [3] 未来展望 - 预计2026Q1数据中心计算和网络收入将显著增长 [3] - 新一代GeForce RTX 50系列显卡将在全球市场推出 [2] - 自动驾驶汽车和智能工厂应用推动汽车领域增长 [2] - 视频技术在医疗和汽车行业应用扩大 [2] 资本运作 - 2026Q1预计税率17% ±1%误差范围 [4] - 本财年计划回购股票和支付现金股利总额81亿美元 [4]
TMT行业周报(2月第2周):DeepSeek引领国内推理侧行情-20250319
世纪证券· 2025-02-17 08:11
报告行业投资评级 未提及 报告的核心观点 - TMT板块整体跑赢沪深300 DeepSeek相关催化使TMT板块在2025.02.05 - 2025.02.14期间,计算机、传媒、电子、通信一级行业均有涨幅 计算机涨幅22.29%、传媒涨幅17.43%、电子涨幅6.43%、通信涨幅6.13% 沪深300涨幅3.19% [3] - DeepSeek引发鲶鱼效应 其V3及R1模型推出重塑AI大模型竞争格局 推动应用端爆发 R1及o3等推理模型迭代有望在垂类细分场景取得应用端突破 建议关注AI医疗、AI教育及AI金融等产业链 [3] - DeepSeek拉动推理侧算力需求增长 DeepSeek APP上线20天全球日活DAU达2215万 推理需求爆发拉动算力增长 海外芯片供应受阻下 建议关注国内算力相关产业链 [3] 市场周度回顾 - TMT板块一级行业表现 2025.02.05 - 2025.02.14期间 计算机涨幅22.29%、传媒涨幅17.43%、电子涨幅6.43%、通信涨幅6.13% 整体跑赢沪深300(3.19%) [3] - TMT板块三级子行业表现 涨幅靠前的为影视动漫制作(50.61%)、横向通用软件(27.75%)、IT服务Ⅲ(26.30%) 靠后的为印制电路板(1.80%)、通信线缆及配套(1.76%)、通信网络设备及器件( - 1.89%) [3] - 细分个股表现 电子周涨幅前三为弘信电子(50.35%)、联创电子(47.96%)、福立旺(42.75%) 计算机为青云科技(208.19%)、优刻得 - W(177.44%)、每日互动(111.66%) 传媒为光线传媒(264.43%)、浙数文化(75.81%)、福石控股(40.57%) 通信为梦网科技(114.45%)、润建股份(71.92%)、数据港(71.79%) [3] 行业要闻及重点公司公告 行业重要事件 未提及 行业要闻 AI模型侧 - 近期行业展会及会议安排 2月4日2025中东迪拜AI技术人工智能展 2月6日《网络游戏分类》和《游戏分发与推广基本要求》实施 2月10日法国巴黎人工智能行动峰会 2月19日2025工业互联网大会和英伟达公布业绩数据 3月17日英伟达GTC大会 [16] - 各公司模型动态 2月5日DeepSeek发布52个在招职位 京东云和国家超算互联网平台上线相关模型 2月6日谷歌发布新模型 华为平台支持DeepSeek模型 研究人员训练s1模型 2月7日即梦AI发布新功能预告片 2月8日据AI产品榜1月DeepSeek用户增长1.25亿 特朗普称DeepSeek无安全威胁 上海人工智能产业规模突破4000亿 腾讯申请专利 2月9日DeepSeek - V3 API服务调整价格 2月10日豆包发布视频生成实验模型 奥尔特曼称AI成本下降及宣布布局AI智能体 [17][19] AI应用侧 - 各公司应用及产品进展 2月12日字节跳动提出UltraMem架构 OpenAI称不售予马斯克 宣布推GPT - 5 马斯克称Grok 3将发布 奥特曼计划与DeepSeek会面 文心一言宣布免费开放 2月13日百度宣布推文心大模型4.5系列并开源 2月5 - 24日期间 多家公司接入DeepSeek模型 苹果与阿里合作开发AI功能等 [22][24][26] AI算力侧 - 行业政策及公司动态 2月14日苏州发布支持人工智能人才措施 中国信通院启动DeepSeek国产化适配测评 苹果努力引入AI功能 2月5日集邦咨询称DeepSeek影响数据中心建置量 光收发模块出货量增长 DIGITIMES Research称2025年半导体产业营收增长 2月6日日本研发量子计算机 村田社长看好被动元件需求 2月9日家电以旧换新数据公布 2月10日台积电受地震影响收入预计 法国宣布AI产业投资 [29] 公司公告 - 行业倡议及研究报告 2月11日欧盟发起“人工智能投资”倡议 2月12日TrendForce报告称2025年全球AI服务器出货量有望年增近28% 2024年出货量年增46% 联想发布报告 软银集团表示项目资金来源 [32] - 公司业务及财务动态 2月13日阿里云泰国数据中心启用 天津人工智能计算中心接入DeepSeek模型 2月5 - 14日期间 多家公司有业务合作、产品接入、业绩、减持、中标等相关公告 [34][35][37]