AI芯片竞争,再起波澜

文章核心观点 - 英伟达过去十年主导AI芯片市场,但其市场主导地位正面临来自多个方面的挑战,包括主要云服务商转向自研芯片、AMD的竞争、中国构建独立半导体生态以及行业向专用硬件和光纤连接转型 [1][13][14] 英伟达的市场地位与挑战 - 过去十年,英伟达一直主导用于机器学习/人工智能的高性能计算机芯片市场,其市值预计将在2025年短暂达到5万亿美元 [1] - 2025年2月至10月期间,支持人工智能发展的硬件(包括半导体芯片和网络连接)收入达到1478亿美元 [1] - 英伟达的强劲销售和高利润率得益于有限的产量稀缺,高端芯片的主要瓶颈在于台积电在芯片封装(CoWoS)先进封装方面的产能有限 [1] - 随着行业向更加专业化的硬件方向发展,英伟达面临的挑战不再仅仅局限于与一家公司竞争,而是来自多个方面 [1] - 随着业界从试验大规模基础模型转向优先发展大规模、高性价比的推理,英伟达面临着巨大的风险 [1] 主要云服务提供商转向自研芯片 - 主要的云服务提供商正在摆脱对英伟达CUDA生态系统的依赖,并投资开发自己的芯片用于高容量推理,因为在高容量推理中,运营成本超过了训练成本 [2] - 北美四大超大规模数据中心运营商——谷歌、亚马逊网络服务、微软和Meta——集体转向定制芯片是一项旨在确保竞争优势的战略举措 [4] - 谷歌:已开始向定制人工智能芯片转型,其首款产品是张量处理单元(TPU) [4] - 最新版本第七代TPU Ironwood针对推理进行了优化,拥有大量共享内存,单个SuperPOD最多可连接9216个芯片 [4] - 根据表格数据,TPU Ironwood(2025)的HBM带宽/容量为192 GB @ 7.4 TBps,每芯片峰值算力达4614 TFLOPS,远超TPU v5p(2023)的95 GB @ 2.8 TBps和459 TFLOPS [5] - Meta Platforms可能从2027年开始租赁或采购谷歌的TPU芯片,这标志着谷歌正转型成为一家商业芯片供应商 [5] - 据估计,谷歌可能会占据英伟达年总收入的10%,这笔收入可能高达数十亿美元 [5] - 亚马逊网络服务 (AWS):致力于提升性价比以吸引寻求英伟达高价芯片替代方案的企业 [6] - AWS声称其"Trainium"芯片与GPU相比可将训练成本降低高达50%,主要面向中等规模的AI工作负载 [6] - AWS还在扩展其Graviton5定制芯片,该芯片采用3nm工艺,据称在通用任务中比上一代产品性能提升高达25% [6] - Anthropic等合作伙伴正在使用Trainium2进行模型训练 [6] - Meta:其Meta训练和推理加速器 (MTIA) 专为Facebook和Instagram等平台的推荐系统等高容量任务而设计 [6] - 通过将这些任务卸载到其定制芯片上,该公司可以将Nvidia H100芯片用于更高级的AI研究 [6] - 微软:其定制芯片项目遭遇挫折,下一代芯片Maia(代号Braga)的发布已被推迟至2026年 [7] - 此次延期意味着微软必须继续采购昂贵的英伟达Blackwell GPU来满足OpenAI的计算需求 [7] - 为了降低成本,微软也使用了AMD的Instinct MI300X GPU,并且是AMD最大的客户之一 [7] AMD作为替代选择崛起 - AMD的目标是成为"NVIDIA的替代选择" [8] - AMD的MI300X芯片配备192GB的HBM3显存,远超NVIDIA的H100,使其成为降低大规模模型推理成本的理想之选 [9] - AMD预计其数据中心GPU的年销售额将达到数十亿美元,从而与NVIDIA展开直接竞争 [9] - AMD之前的软件限制已通过OpenAI的Triton编译器得到解决,该编译器允许开发人员编写与NVIDIA和AMD硬件兼容的高性能代码,而无需深入了解CUDA或AMD的ROCm [10] - Triton提高了硬件兼容性,简化了从CUDA的迁移,降低了成本,使制造商更容易采用其他供应商 [10] 中国构建独立半导体生态 - 由于美国的出口限制,中国正努力在国内构建一个平行且独立的生态系统,这加剧了英伟达面临的挑战 [11] - 华为引领着中国国内的这一基础设施建设,并通过替代架构策略弥补了极紫外(EUV)光刻设备获取渠道有限的不足 [11] - 华为的尖端芯片Ascend 910C由国内企业制造,据报道其训练性能可达NVIDIA H100的60-80%,在某些推理任务中也能与H100相媲美 [11] - 高性能得益于"横向扩展"设计:在诸如Atlas 950 SuperPoD之类的系统中,数千个Ascend神经处理单元 (NPU) 通过一种名为统一总线的新型光纤链路连接 [11] - 但发展这种独立的计算能力是有代价的:中芯国际的昇腾910C芯片良率只有30-40%,远低于行业标准 [11] - 据报道,华为计划在2026年推出新版本的Ascend芯片,其中Ascend 950PR预计将于第一季度发布,而其高端版本Ascend 950DT预计将于第四季度发布 [11] - 2025年12月,尽管美国总统特朗普批准出口英伟达高性能H200芯片并表示愿意放宽限制,中国政府却宣布计划自行实施严格的准入限制,考虑如何限制对H200的获取 [12] - 中国也在推进存储芯片制造,这将有助于减轻未来与存储相关的制裁的影响 [12] 行业未来趋势与英伟达的应对 - 英伟达承认,由于台积电产能受限,公司难以维持高利润率,因此正在投资新市场,包括诺基亚等电信基础设施制造商 [13][14] - 预计英伟达将在2026年之前保持其在高利润、高性能模型训练领域的领先地位,然而,更广泛的大规模推理市场可能由主要云提供商的定制芯片主导 [14] - 下一个主要的竞争挑战将出现在半导体芯片连接领域,随着电气连接的局限性日益凸显,商用产品开始采用光纤连接 [14] - Marvell收购Celestial AI,以及Lightmatter等公司提供用于更快芯片连接的3D光子晶圆,都表明到2026年,光纤连接将成为人工智能芯片的主要标准 [14] - 这一转变将使Broadcom和Marvell等公司成为关键供应商 [14] - 人工智能计算的未来将不再由任何一家公司垄断,而是由专业化、高度互联的系统融合而成 [14]