Workflow
亚马逊Inferentia
icon
搜索文档
英伟达真正的对手是谁
经济观察报· 2025-12-23 11:22
文章核心观点 - 英伟达在AI算力芯片领域,特别是训练场景,凭借先进技术和强大的CUDA软件生态建立了近乎垄断的领导地位,市值高达约4.5万亿美元,2025年第三季度营收同比增长约62% [2] - 尽管存在众多挑战者,但目前均难以撼动英伟达的地位,但未来格局可能因技术路径差异和地缘政治因素而改变 [1][2] 竞争壁垒:技术与生态 - **训练是战略制高点**:在大模型发展的初期和中期,训练算力是核心瓶颈,决定了模型的“高度” [5] - **训练要求三要素**:对算力芯片的要求可拆解为单卡性能、互联能力和软件生态三部分 [6] - **单卡性能的追赶**:竞争对手如AMD的最新产品在主要性能指标上已接近英伟达同期产品,但仅凭此不足以构成威胁 [7] - **互联能力是关键差距**:英伟达通过NVLink、NVSwitch实现万卡级高效稳定互联;其他厂商实际落地集群规模多停留在千卡级,且缺乏大规模商用实践,导致在利用效率、训练时间和成本上存在显著差距 [7] - **软件生态构成核心护城河**:英伟达的优势更在于对算力生态的统治地位,其CUDA平台拥有超过400万开发者,积累了20年的成熟工具、软件库和社区支持 [8][9] - **生态的网络效应**:CUDA生态与主流深度学习框架(如PyTorch、TensorFlow)深度协同,形成强大的网络效应,使得用户转换成本极高 [10] - **学术与教育基础**:全球高校和AI实验室的教学实验设备几乎全是英伟达GPU,培养了熟练掌握CUDA的工程师人才池 [9] 相对弱势领域:推理市场 - **推理场景要求降低**:模型部署进行推理时,对算力卡数量和互联能力的要求远低于训练,有时甚至单卡即可完成 [12] - **生态依赖度降低**:训练完成的模型对英伟达开发生态依赖度降低,且存在成熟的跨平台迁移方法(如ONNX格式)可将模型部署到其他算力平台 [12][13] - **仍占据市场主导**:尽管统治力不如训练领域,英伟达在推理市场仍占据超过70%的市场份额,因其在性能、价格、稳定性、开发成本等方面的综合性价比仍有竞争力 [13] - **迁移成本高昂**:据访谈,将模型从英伟达平台迁移至其他品牌集群,可能导致开发周期延长6个月,成本增加40% [13] 谁能挑战英伟达 - **竞争者的两难选择**:挑战者必须面对技术和生态的双重壁垒,要么在技术上实现巨大超越,要么通过非经济手段(如保护性市场)避开生态正面竞争 [15] - **美国:技术路径挑战**:挑战主要来自定制化ASIC芯片(如谷歌TPU),通过牺牲灵活性换取AI计算效率,谷歌Gemini3大模型已完全基于TPU训练 [15] - **ASIC与GPU的权衡**:ASIC芯片在特定AI计算任务上效率、功耗更有优势,但面临模型算法范式变动带来的“过时”风险;短期内技术跨越不大,且生态劣势是全方位的,因此对英伟达影响有限 [16] - **中国:地缘政治催生的市场**:美国禁令使中国市场被动成为“被保护”的市场,英伟达的生态优势无法充分发挥 [17] - **中国市场的阵痛与机遇**:禁令导致中国AI产业短期内面临算力效率下降的阵痛,但为国产算力芯片企业(如华为、寒武纪、燧原)提供了重大发展机遇,迫使用户转向国产生态(如华为CANN) [18] - **生态迁移的长期影响**:尽管开发者转向国产生态面临学习成本和技术问题,但随着投入增加,生态将逐渐成熟;未来即使禁令解除,用户也可能因迁移成本已被“消化”而留在新生态 [18] - **政策的最新变化**:2025年12月8日,美国政府批准英伟达向中国出售较先进的H200芯片(附带条件),H200算力约为特供版H20的6倍,显存容量约为1.5倍,训练表现领先数倍到十倍以上,旨在维持技术代差和英伟达生态影响力 [19] - **中国的战略应对**:理性的策略不是完全禁止或无条件放开,而是允许必要的采购(如国产芯片无法满足的核心项目),同时设计机制在局部保护市场,扶持国内AI芯片企业发展自己的生态 [19] 战略考量:生态竞争与开源 - **超越国产替代思维**:仅关注国产替代可能导致全球技术封闭和脱钩 [21] - **生态竞争的本质**:与英伟达的竞争是生态与生态之间的竞争 [21] - **开源是最优解**:开源战略可以构建全球性网络,汇聚全球开发者智慧,放大创新效率,打破脱钩陷阱;华为已宣布将其CANN和Mind工具链全面开源开放 [21]
英伟达真正的对手是谁
经济观察网· 2025-12-22 07:48
文章核心观点 - 英伟达凭借先进的技术和强大的软件生态,在AI训练算力领域建立了近乎垄断的领导地位,但其在推理领域的统治力相对较弱,且正面临来自美国ASIC芯片技术路线及中国受地缘政治保护市场的长期挑战 [2][5][11][13][15][16] 竞争格局与英伟达优势 - 英伟达是AI算力领域的领导者,截至2025年11月市值约为4.5万亿美元,2025年第三季度营收同比增长约62% [2] - 英伟达面临众多挑战者,包括美国的AMD、英特尔、谷歌TPU、亚马逊Trainium/Inferentia及Cerebras、Groq等,以及中国的华为、寒武纪、燧原等,但目前均难以撼动其地位 [2] - 英伟达在训练算力的统治性优势源于单卡性能、互联能力和软件生态三方面 [5][6] - 在单卡性能上,英伟达处于行业顶尖,但AMD等竞争对手的最新产品的部分主要性能指标已接近英伟达同期产品 [7] - 在互联能力上,英伟达凭借NVLink、NVSwitch等技术实现了万卡级高效稳定互联,而其他厂商实际落地的集群规模大多仍停留在千卡级别,差距显著 [7] - 英伟达最核心的优势在于其软件生态,特别是拥有20年积累的CUDA平台,拥有超过400万开发者,形成了强大的网络效应和用户黏性 [8][10] - 主流深度学习框架PyTorch和TensorFlow与CUDA有深度生态协同,进一步巩固了其竞争优势 [9] - 学术界的最新AI论文开源代码通常只在英伟达GPU上验证,全球高校和AI实验室的教学实验设备也几乎全是英伟达GPU,这为其培养了庞大的熟练开发者基础 [9] 推理市场的相对弱势 - 相较于训练,推理场景对芯片互联能力要求大幅降低,有时仅需单卡部署 [11] - 在推理场景下,英伟达的生态优势不再显著,且存在成熟的跨平台模型迁移方法 [11] - 尽管如此,英伟达在推理市场仍占据超过70%的市场份额,因其综合性价比仍具竞争力 [11] - 根据对大厂工程师的访谈,将模型从英伟达平台迁移至其他品牌集群,可能导致开发周期延长6个月,成本增加40% [12] 挑战者与竞争路径 - 挑战英伟达必须面对技术和生态两方面的壁垒,生态壁垒远高于技术壁垒 [13] - 竞争者的成功路径有两种:一是在技术上实现巨大超越以克服生态劣势;二是利用非经济方法(如地缘政治)形成一个保护性市场,避开生态正面竞争 [13] - 在美国,挑战主要来自技术方面,如谷歌的定制化ASIC芯片TPU,其最新大模型Gemini 3完全基于TPU训练 [13] - ASIC芯片通过牺牲通用性换取在特定AI计算任务上的更高效率和更低功耗,但面临模型算法范式变动带来的“过时”风险 [14] - 短期内,ASIC芯片的技术挑战对英伟达影响有限,因其技术跨越并非巨大,而生态劣势是全方位的 [15] 中国市场的地缘政治影响 - 美国政府的芯片禁令使中国市场被动成为“被保护”的市场,英伟达的生态优势无法充分发挥 [16] - 禁令给中国AI产业带来中短期阵痛,但为中国算力芯片企业(如华为)提供了重大发展机遇,使其生态(如CANN)有机会在缺乏竞争的环境下成长 [17][18] - 2025年12月8日,美国政策转变,批准英伟达向中国出售较先进的H200芯片(附带条款),旨在维持技术代差和英伟达的生态影响力 [19] - H200的算力约为特供版H20的6倍,显存容量约为1.5倍,综合训练表现领先数倍到十倍以上 [19] - 对于中国市场,理性的策略是在允许必要采购(如前沿研究)的同时,设计机制鼓励和扶持国内AI芯片企业在相对受保护的市场发展自身生态 [19] 生态竞争的战略思维 - 与英伟达的竞争本质上是生态与生态的竞争,应避免单纯的国产替代思维,以防引发全球性的技术封闭 [20] - 开源思维被视为构建全球性网络、放大创新效率、打破脱钩陷阱的最优解 [20] - 华为在2025年8月宣布将其对标CUDA的CANN和Mind工具链全面开源开放,正是这种战略思维的体现,旨在快速汇聚全球开发者智慧,打造开放有竞争力的生态 [21]
一文读懂谷歌TPU:Meta投怀送抱、英伟达暴跌,都跟这颗“自救芯片”有关
36氪· 2025-11-27 02:39
文章核心观点 - 谷歌自研的TPU已从内部效率解决方案发展为具备挑战英伟达GPU霸主地位潜力的战略武器,其核心逻辑是通过全栈垂直整合和超大规模系统设计,在AI推理时代建立显著的成本和效率优势 [8][28][32] - 行业竞争焦点正从AI模型训练能力转向大规模推理的成本控制,谷歌凭借TPU及其全栈能力有望在新周期中构建牢固的竞争壁垒 [28][31][32] - 谷歌、英伟达和亚马逊在AI芯片领域遵循三种不同的技术路线和商业模式,导致产品形态和竞争格局的显著差异 [19][23] TPU的技术演进与系统优势 - TPU项目于2015年启动,初衷是解决深度学习模型在谷歌核心业务中全面应用可能导致的数据中心功耗和成本激增问题,而非追求通用芯片性能 [3] - TPU v1在2016年投入使用,2017年Transformer架构的出现被证明与TPU的计算模式高度匹配,促使谷歌构建从软件框架到芯片架构的全栈闭环 [4][5] - TPU v4在2021年首次将4096颗芯片组成超节点,通过自研环形拓扑网络实现高效协同,证明了集群规模与模型性能近乎线性增长的关系 [5] - TPU v5p在2023-2024年性能较v4翻倍,并首次大规模应用于谷歌广告、搜索、YouTube等核心盈利产品线,同时开始吸引Meta、Anthropic等外部客户 [6][7] - 2024年发布的TPU v6(Trillium)专为推理负载设计,能效比提升67%,目标成为“推理时代最省钱的商业引擎” [7][8] - 2025年的TPU v7(Ironwood)是首款专用推理芯片,单芯片FP8算力达4.6 petaFLOPS,其Pod可集成9216颗芯片,峰值性能超42.5 exaFLOPS,在特定负载下性能可达最接近竞品的118倍 [13][14] - Ironwood采用2D/3D环面拓扑结合光路交换网络,实现99.999%的年可用性,并通过系统级优化使推理成本较GPU旗舰系统低30%-40% [15][16] 行业竞争格局与商业模式对比 - 英伟达路线围绕GPU的通用性和CUDA生态构建,通过软硬件深度捆绑实现高定价权,但其GPU并非为推理优化,存在“英伟达税” [20][21][26] - 谷歌路线追求深度学习负载的极致效率,通过全栈垂直整合进行系统级优化,核心优势在于控制从芯片到数据中心的整个链条 [21][26] - 亚马逊路线以降低AWS基础设施成本和减少外部依赖为核心,其Trainium和Inferentia芯片更关注规模效应与经济性 [22][23] - 谷歌的全栈整合使其避免支付“英伟达税”,在提供同等推理服务时底层成本可能仅为对手的两成,这种成本结构在推理时代具有决定性意义 [26][27] - 谷歌云全年化收入达440亿美元,TPU助力其在与AWS和Azure的差异化竞争中获得新优势,并推动AI成为云业务增长的重要驱动力 [30][32] TPU的商业化影响与战略意义 - TPU使谷歌能够以相对低成本训练大规模模型,缩短模型迭代周期,并支持Gemini系列模型的训练与推理 [30] - 谷歌推出TPU@Premises计划,将TPU直接部署在企业数据中心,进一步扩大其商业辐射范围和成本优势 [27] - 企业AI采用加速,在大规模在线推理场景中,TPU相比GPU提供了更具经济性和稳定性的替代方案 [31] - 谷歌提供从模型训练到推理服务的整体解决方案,TPU作为底层基础设施,助力公司将自身塑造为企业AI的完整平台 [32] - TPU是谷歌在AI时代构建的最具战略意义的资产,正成为推动公司市值增长、云业务崛起和AI商业模式重塑的主力引擎 [32]