Workflow
NVIDIA GPU
icon
搜索文档
为什么现代 AI 能做成?Hinton 对话 Jeff Dean
36氪· 2025-12-19 00:47
2025 年 12 月初,圣地亚哥 NeurIPS 大会。 Geoffrey Hinton(神经网络奠基人、2024年诺贝尔物理学奖得主)与Jeff Dean(Google首席科学家、 Gemini模型联合负责人、TPU架构师)的炉边对谈,成为这场大会的重要时刻。 对话聚焦一个关键问题: 现代 AI 为什么能从实验室走向数十亿用户? 从 AlexNet 在学生卧室的两块 GPU 上训练,到 Google 在餐巾纸上算出TPU需求;从学术圈的小众实 验,到支撑全球亿级应用的基础设施。 这是一次对 AI 工业化进程的系统性复盘。 他们给出的答案是:现代 AI 的突破从来不是单点奇迹,而是算法、硬件、工程同时成熟后的系统性涌 现。强算法必须与强基础设施结合,才能真正走向规模化。 看清这条路径,你就能理解AI为什么是今天这个样子。 第一节|AI的突破,起于一块GPU板 Geoffrey Hinton 说,现代 AI 真正的转折,不在某篇论文里,而是在他学生 Alex 的卧室里:两块 NVIDIA GPU 板,插在父母家电脑上,训练图像识别模型。电费,还是家里人掏的。 那是 2012年 ,ImageNet 比赛。 别人 ...
32张图片图解SemiAnalysis的亚马逊AI芯片Trainium3的深度解读
傅里叶的猫· 2025-12-07 13:13
AWS Trainium3核心理念与战略 - 核心理念是最大化性价比与运营灵活性,追求最佳总拥有成本,而非固定硬件标准 [3][4][8][9] - 采用“Amazon Basics”方法设计系统与网络,根据特定客户和数据中心需求选择交换机带宽和冷却方式,以实现最佳TCO [4][9] - 软件战略从内部优化转向开源生态,旨在构建类似CUDA的护城河,通过开源PyTorch后端、NKI编译器、XLA图编译器及内核库来扩大采用率 [5][6][10] 市场竞争格局与AWS定位 - 人工智能加速器市场竞争激烈,NVIDIA是当前领导者,但面临AWS、AMD、Google等多条战线挑战 [7][10] - AWS Trainium3凭借极强的性价比成为新的竞争者,其上市策略包括对OpenAI等客户提供股权回扣以加速采用 [7][10] - 行业需加速发展以保持领先,避免自满 [7][10] Trainium3硬件规格与代际升级 - 相比Trainium2,Trainium3在关键规格上实现显著提升:BF16/FP8 FLOPs提升2倍,支持MXFP8数据格式,HBM3E容量从96GB增至144GB(+50%),引脚速度从5.7Gbps提升至9.6Gbps(+70%),纵向扩展带宽从PCIe Gen5升级至Gen6实现2倍提升 [12] - 存在4种服务器SKU,品牌命名与供应链代号不一致易导致混淆,文章呼吁AWS采用更清晰的命名法 [12] - 预计下一代Trainium4将采用HBM4,内存带宽和容量相比Trainium3再次翻倍 [12] 机架架构演进与设计 - 架构从Trainium2的2D/3D Torus拓扑演进至Trainium3的交换式纵向扩展架构,后者为前沿MoE模型提供更好的绝对性能和性价比 [4][9][14][26] - Trainium3提供两种主要交换式机架SKU:风冷的NL32x2(代号Teton3 PDS)和液冷的NL72x2(代号Teton3 MAX),分别针对不同功率密度和规模需求 [7][10][26][30] - 设计注重可维护性与可靠性,采用无电缆设计、支持热插拔,不同于NVIDIA追求极致性能而有所牺牲的理念 [28][29][44] 硅工艺与封装技术 - Trainium3采用台积电N3P工艺节点,这是专为高性能计算优化的3nm工艺,相比N5在速度、功耗和密度上带来增量收益 [15] - 封装采用双CoWoS-R组件结构,使用有机薄膜中介层,相比硅中介层成本更低、机械柔性更好,并通过集成无源器件弥补细微布线和电源完整性不足 [16][17][18] - N3P工艺面临漏电与良率挑战,可能导致产品时间表推迟 [15] 供应链与设计合作伙伴策略 - Trainium3的设计从Marvell转向Alchip,后者负责绝大多数产量,主要原因是Marvell在Trainium2上执行不力、开发周期过长 [20] - AWS采用双流片策略,极度关注成本,压缩了合作伙伴的利润空间 [20] - 与Astera Labs建立合作伙伴关系,通过批量采购和股权认股权证获得约23%的有效折扣 [41] 网络架构与扩展能力 - 纵向扩展网络从第一代160通道PCIe交换机演进,未来将采用320通道PCIe及72+端口的UALink交换机,以降低延迟、优化MoE性能 [4][9][37][41] - 横向扩展网络基于弹性织物适配器架构,提供高安全性、可扩展性和低延迟,默认配置为每芯片200Gbps EFA带宽,并可升级至400Gbps [29][35][45] - 采用高基数网络策略,通过定制交换机(12.8T/25.6T/51.2T)和逻辑端口配置,最大化GPU连接规模,实现大规模网络 [46][47] 性能优化与创新特性 - 配备专用集体通信核心,实现计算与通信任务的无竞争并发处理,简化高性能实现 [49][50] - 具备低延迟集体通信特性,如近内存计算、SBUF直接传输、自动转发和零成本转置,优化LLM训练和MoE模型性能 [51][52] - 支持高级流量管理与动态MoE,通过硬件流量整形和原生动态路由支持,无需预先数据洗牌 [53][54] 商业化与部署策略 - 通过无电缆设计、使用Retimer、背板冗余通道等设计哲学,以及风冷/液冷双选项,提高组装效率、部署灵活性和可维护性 [44] - 供应链优化旨在缩短从CoWoS封装到完整机架的交付时间,目标在季度内完成,以实现比竞争对手更快的客户收入生成 [44] - 交换式拓扑相比Torus更受青睐,AWS策略是兼容多代交换机,追求TCO与上市时间的平衡 [26][35]
美股 一次全曝光“谷歌AI芯片”最强核心供应商,有哪些公司将利好?
36氪· 2025-11-28 00:51
文章核心观点 - 谷歌正通过其TPU算力系统从英伟达手中争夺市场份额,行业格局出现结构性松动,一条全新的“谷歌链”正在快速成形 [1][3] - 谷歌TPU的竞争优势不在于单芯片性能,而在于系统级的性价比、规模、效率和总拥有成本,这吸引了Meta、Anthropic等顶级客户 [5][7][10] - AI算力基础设施正从英伟达主导的单一生态,升级为“客户说了算”的多层次、可组合的算力池,形成“英伟达链”与“谷歌链”双轨并行的新结构 [22][25][27] 谷歌TPU的竞争优势 - 谷歌TPU的战略是拼规模、效率、成本和稳定性,而非单卡性能,其第六代TPU Trillium训练主流大模型的“性能/成本比”比上一代最高提升约2.1倍 [5] - 第七代TPU Ironwood将一个Pod最多塞进9,216颗TPU,并配备1.77PB共享HBM内存,配合自研光交换网络降低通信延迟,像一台巨型超级计算机 [5] - 在主流大模型任务上,TPU v5e/v6的性能/成本比相较传统高端GPU方案可提升2–4倍,企业整体算力成本可降低30%–40%甚至更多 [7] - 定价对比直观:同一地区,一颗H100的Spot价格为2.25美元/小时,而一颗TPU v5e仅为0.24美元/小时,单芯片计费价格相差9倍 [8] - TPU已进入高频交易公司、银行、国防部门等对数据隔离、超低延迟、可审计性有严苛要求的场景,打开了GPU难以进入的高价值市场 [15] 关键客户合作与动机 - 谷歌正与Meta洽谈数十亿美元级的TPU采购,Meta考虑自2027年起将部分推理算力从英伟达迁移至Google TPU [1] - 谷歌与Anthropic确立“最高百万颗TPU”的扩容计划,规模直指数百亿美元 [1] - Anthropic的动机在于TPU能用更低预算支撑更大模型规模,并将数据中心建设维护托付给谷歌云,可专注于模型本身 [10] - Meta的动机是进行风险对冲,优化长期运营成本,特别是在每天消耗大量算力的推理和微调场景,迁至更便宜平台可节省持续性现金流 [13] - 谷歌云内部高管表示,若TPU采用率持续扩大,公司有能力从英伟达手中夺走约10%的年收入份额 [1] “谷歌链”核心受益公司 - **博通**:提供TPU集群核心的通信和网络部分,包括高速SerDes、交换ASIC及支撑Jupiter光网络的光交换芯片,合作已近十年 [15][16] - **台积电、Amkor、日月光**:构成制造端铁三角,负责3nm/2nm制程、HBM堆叠、高密度Chiplet封装,决定算力上限与带宽落地 [18] - **Jabil、Flex、Celestica**:负责TPU模组、服务器机架、电源系统与整柜装配,是谷歌数据中心扩容最敏感直观的环节 [18] - **Lumentum、Coherent、博通的光通信业务**:提供Jupiter光交换体系所需的高带宽光模块,支撑数据中心互联从400G向800G、1.6T升级 [19] - **SiTime、Luna Innovations**:作为OCS上游供应商,提供2D MEMS微镜阵列等高精度器件 [19] - **Vertiv**:提供解决高功耗带来的散热、电力与液冷需求的电源管理与液冷系统,是算力密度走高的底层能力保障 [20] - **高通**:为谷歌端侧AI提供Snapdragon算力平台,是安卓生态运行“端侧大模型”的关键基础,补全谷歌“云-端”AI版图 [20] 行业格局与投资逻辑演变 - 谷歌TPU的崛起触发了全球AI算力结构的“大扩容”,为产业开辟了第二条成熟可靠的算力供给线,降低了单一供应商依赖风险 [22] - AI基础设施升级为可组合、可调度、可精分的“多层次算力池”,客户可根据任务需求(稳定性、灵活性、成本、安全性)配置算力 [22][24][25] - 英伟达链的估值逻辑看生态、通用性、平台溢价,是“成熟期的估值体系”;谷歌链看订单、产能、扩张速度,是“成长期的加速度逻辑” [26][27] - 两条链并非零和替代,而是共同驱动算力扩张:英伟达推高天花板让模型更强,谷歌拓宽高速路让算力供给更可持续、规模化 [27]
Google集群拆解
华泰证券· 2025-11-27 08:52
报告行业投资评级 未提及 报告的核心观点 报告围绕Google集群展开研究,深入剖析其Scale up和Scale out架构,涵盖3D结构、光互联等方面,对比不同GPU的技术参数,并分析TPU集群内互联组件占比及十万卡集群不同互联方案[4][117]。 根据相关目录分别进行总结 Google集群的Scale up: 3D结构 - Google集群柜内Scale up采用3D结构,从TPU到TPU Tray再到TPU Rack,一个机架有16个TPU Tray、64个TPU芯片[9][28] - 对比不同GPU,如Nvidia从Hopper到Blackwell,NVLink带宽不断提升,Blackwell NVLink 5达1.8TB/s;AMD从MI350到MI400,MI400单卡有72条200Gb UALink Lane,对应1.8TB/s的Scale up网络[20][25][27] Google集群的Scale up光互联:光路交换机 - 光路交换机的光信号输入输出涉及相机模块、二色分光元件等,通过二维MEMS微镜阵列控制光束反射到目标输出端口,并实现光路监控和对准[46][47] - TPU V4和V7 Superpod由光路交换机连接实现TPU全连接,V4 Superpod为8*8,V7为16*9;每套系统含64个机架,分8组,共4096芯片,共享256TiB HBM内存,总计算超1 ExaFLOP[48][52][60] TPU集群内,光路交换机和光模块占比 - TPU V4光路交换机占比1.1%,光模块数量6144,比例1.5;TPU V7光路交换机占比0.52%,光模块数量13824,比例1.5[70][75][84] - 单个Rack向外光模块6*16,PCB Traces 4*16,Copper cables 80,ICI连接含96光纤、80铜缆和64 pcb traces[94][95] Google集群的Scale out - Scale out采用Tomahawk 5交换机,有128个400G端口,TPU SuperPod外通过数据中心网络通信[103][106] - NV Scale out中的OCS在通用三层FT拓扑中有主要集成点,可增强硬件和软件故障弹性[116] - 十万卡集群不同互联方案对比,InfiniBand、NVIDIA Spectrum - X、Broadcom Tomahawk5的交换机和光模块数量、占比及成本各有不同[125]
Datacenter and AI Chip Demand to Boost NVIDIA's Q3 Earnings
ZACKS· 2025-11-17 13:51
公司业绩预期 - 公司预计第三财季营收将达到540亿美元(±2%)[2] - Zacks一致预期营收为546.2亿美元,同比增长55.7%,环比增长16.9%[2] - 第三财季每股收益一致预期为1.24美元,同比增长53.1%,环比增长18.1%[3] - 在过去四个季度中,公司三次盈利超出预期,平均超出幅度为3.6%[3] 数据中心业务表现 - 数据中心业务是主要增长动力,第二财季营收达411亿美元,同比增长56%,环比增长5%[4] - 第三财季数据中心营收预计为480.4亿美元,同比增长约56.1%,环比增长16.9%[5] - 增长主要源于企业和云服务提供商对AI基础设施的持续大力投资[5] 技术与产品优势 - Hopper、Ampere和Blackwell等最新芯片设计为各类AI应用提供动力[6] - 微软、亚马逊和谷歌等大型科技公司持续在其AI产品和服务中使用公司芯片[6] - 公司芯片广泛应用于医疗保健、汽车、制造和网络安全等多个行业[9] 行业需求背景 - 生成式AI的兴起推动了对高性能计算的巨大需求[7] - 全球生成式AI市场预计到2032年将达到9676.5亿美元,复合年增长率为39.6%[8] - 企业正以前所未有的速度将AI整合到核心运营中[7]
人工智能供应链 台积电为满足主要人工智能客户增长需求扩大 3 纳米产能-Asia-Pacific Technology-AI Supply Chain TSMC to expand 3nm capacity for major AI customer's growth
2025-11-13 02:49
涉及的行业或公司 * 行业:AI半导体供应链 晶圆代工 先进封装[1][2][6] * 公司:台积电 英伟达 AMD 特斯拉 谷歌 亚马逊 微软 Meta OpenAI xAI 日月光 京元电子 创意电子 智原[1][2][5][6][62] 核心观点和论据 台积电3纳米产能扩张与资本支出 * 主要AI客户要求台积电增加晶圆产能 此前认为CoWoS并非主要限制因素 前端晶圆和ABF载板供应才是1H26的瓶颈[2] * 渠道检查显示 台积电可能在台湾Fab15增加20k的3纳米月产能 通过移出22nm/28nm产线为3nm腾出洁净室空间[3][12] * 新增20k 3nm产能预计需要50亿至70亿美元资本支出 假设每千片月产能资本支出为3亿美元 这将使台积电2026年资本支出从原先预估的430亿美元提升至480亿至500亿美元[3][12] * 台积电2025年3纳米产能预计为110-120kwpm 2026年产能预期从140-150kwpm上调至160-170kwpm 增量包括亚利桑那州晶圆厂二期20kwpm 台湾4/5纳米转换10kwpm 以及Fab15新增的20kwpm[11][13] CoWoS产能与AI需求分析 * 分析显示 当前公布的超大规模电力部署计划对CoWoS的总需求为124.3万片 年均需求为68.1万片 而台积电和非台积电阵营的年均CoWoS总产能接近110万片 因此CoWoS产能充足 并非关键瓶颈[18] * 基于已宣布的合作关系计算 包括OpenAI-英伟达10GW OpenAI-AMD 6GW 谷歌-Anthropic 1GW合同 台积电阵营的CoWoS总需求为62.9万片 非台积电阵营为11万片[21] * 预计到2027年 这些项目的年化CoWoS需求 台积电阵营为24.5万片 非台众电阵营为3.7万片 对应的3纳米晶圆需求为英伟达26万片 Broadcom 7万片 AMD项目对应的2纳米晶圆需求为8.1万片[21][24] * 全球CoWoS需求年增长率预计在2024年达到216% 2025年为84% 2026年为71%[29] AI半导体市场前景与投资机会 * 全球云资本支出在2026年预计增长至6210亿美元 同比增长33% 高于市场共识的25% 假设AI服务器资本支出占比提升 2026年AI服务器资本支出可能同比增长73%[54][55] * AI推理需求强劲增长 中国每日token消耗量在2025年6月底达到30万亿 较2024年初增长300倍 谷歌2025年9月处理超过1300万亿token 较7月增长33%[58] * 台积电的AI相关收入占比预计从2024年的中 teens 提升至2025年的25%[73] * 报告看好AI半导体行业 对台积电 京元电子 日月光 三星等公司给予增持评级 同时看好ASIC设计服务提供商如创意电子和智原[6][55][62] 其他重要内容 特定客户与项目动态 * 台积电及其子公司创意电子正合作服务特斯拉 支持其3纳米AI5芯片的设计和生产 AI5将继续使用LPDDR而非HBM 因此不影响台积电CoWoS产能假设[5] * 报告提及特斯拉2纳米AI6芯片为晶圆代工行业带来每年20亿美元的机会[5] * 英伟达CEO黄仁勋上周末访问台湾后 台积电的3纳米产能计划可能发生变化[2] 技术细节与市场数据 * 2026年AI计算晶圆消费市场规模预计达到210亿美元[46] * 2026年HBM消耗量预计达到262.82亿GB[44] * 报告包含详细的CoWoS产能按年份和供应商的分解数据[49] * 下游硬件团队估计2025年GB200/GB300服务器机架出货量约为2.76万个[30]
三星半导体与英伟达达成AI芯片结盟 打造AI工厂共同开发HBM4
证券时报网· 2025-10-31 07:53
合作概述 - 三星半导体与英伟达宣布携手打造人工智能工厂,标志着公司在AI驱动制造领域迈出关键一步 [1] - 双方拥有超过25年的合作历史,合作范围从早期DRAM供应延伸至晶圆代工 [2] - 除AI工厂合作外,双方还正共同开发HBM4 [1][2] AI工厂技术细节 - 三星AI工厂将部署超过5万颗英伟达GPU,在整个制造流程中全面导入AI技术 [1] - 该工厂将整合半导体制造的所有环节,构建单一的智能网络,由AI进行实时分析、预测与优化 [2] - 计划引入英伟达加速计算技术以扩大规模,并借助NVIDIA Omniverse平台加速数字孪生制造 [3] - 通过导入NVIDIA cuLitho与CUDA-X库,三星将光学邻近校正工艺计算能力提升20倍 [3] HBM4与存储技术合作 - 双方共同开发HBM4,采用三星第六代10纳米级DRAM与4纳米逻辑芯片 [2] - HBM4处理速度高达每秒11Gbps,领先于JEDEC标准的8Gbps [2] - 三星将持续提供包括HBM、GDDR与SOCAMM在内的下一代存储解决方案 [2] 智能制造与机器人生态系统 - 三星达成多项与NVIDIA AI平台合作,连接虚拟模拟与真实世界机器人数据 [4] - 通过NVIDIA Jetson Thor模块,强化机器人在实时AI推理、任务执行及安全控制方面的表现 [4] - 公司利用NVIDIA RTX PRO 6000 Blackwell服务器推动制造自动化与人形机器人发展 [4] - 三星自有AI模型已支持超过4亿台三星设备运行,并整合进公司内部制造系统 [4] AI-RAN与通信技术合作 - 三星与英伟达、韩国通信运营商等合作推动AI无线接入网技术研发 [5] - AI-RAN将AI算力融入移动网络架构,使AI终端在边缘节点实现实时运作 [5] - 双方已完成AI-RAN概念验证,结合三星的软件化网络与英伟达的GPU技术 [5] 市场反应与业务扩展 - 合作宣布后三星电子股价上涨3.27%,英伟达股价下跌2%报收202.89美元 [1] - 英伟达总市值从5万亿美元新高回调至4.93万亿美元 [1] - 三星计划将AI工厂基础设施扩展至全球制造中心,包括美国德克萨斯州泰勒工厂 [3]
NVIDIA (NasdaqGS:NVDA) 2025 Conference Transcript
2025-10-28 17:00
涉及的行业或公司 * 公司为英伟达 (NVIDIA) [1] * 涉及的行业包括半导体、人工智能、电信、量子计算、超级计算、机器人技术、自动驾驶、医疗健康、制造业、云计算等 [1][6][24][35][50][154][158][169] 核心观点和论据 1 加速计算与人工智能的平台性转变 * 公司认为世界正经历两个根本性的平台转变:从通用计算转向加速计算,以及从手工编写软件转向人工智能 [11][12][13][52][174] * 加速计算的拐点已经到来,其驱动力是摩尔定律和丹纳德缩放定律的终结,公司为此已准备近三十年 [12][13][14] * 人工智能被视为新的工业革命,如同电力和互联网,是每个公司和国家都将构建的基础设施 [6][7] * 人工智能不仅仅是聊天机器人,其本质是能够完成工作的“工人”,而不仅仅是供人使用的工具,这将触及远大于传统IT行业的全球经济 [50][51][60][61][63] 2 公司技术架构与核心优势 * 公司的核心财富不仅是GPU硬件,更是其编程模型CUDA及建立在之上的庞大软件库生态系统(如cuDNN、Monai等),这些库为不同领域重新设计了加速计算算法 [15][16][17][18][19][21] * 公司通过极端协同设计(从芯片、系统、软件到应用架构的全栈重新设计)来实现性能的指数级提升,而非依赖晶体管数量的线性增长 [87][89][90][101] * 新推出的Grace Blackwell NVLink 72系统通过协同设计,实现了每GPU性能相比前代提升10倍,并且拥有全球最低的Token生成成本 [101][102] * 公司正在从设计芯片扩展到设计整个AI工厂(AI Factory),这是一种专门为高效生成AI Token而设计的新型数据中心 [67][68][69][131][132] 3 财务表现与增长前景 * 公司业务正经历非凡增长,其驱动力是AI模型智能化带来的计算需求(三个扩展定律:预训练、后训练和思考)与模型越智能越被使用的两个指数级增长 [72][75][77][82][108] * 公司已有通过2026年的累计5000亿美元($500 billion)的Blackwell及早期Rubin芯片的订单可见性,这相当于2000万颗GPU,是前代Hopper平台整个生命周期规模的5倍 [109][110][111] * 公司的增长得益于AI已进入良性循环(Virtuous Cycle):模型足够智能以致用户愿意付费,产生的利润再投资于更多计算资源,使模型更智能,吸引更多用户 [80][81][84][85] 4 重要合作伙伴关系与市场拓展 * 电信领域:公司与诺基亚(Nokia)合作,推出名为NVIDIA ARC的新产品线,旨在基于加速计算和AI重塑无线网络,并为6G奠定基础,这是一个价值数万亿美元(trillion-dollar)的行业 [27][28][29][30][31] * 量子计算:公司推出NVLink-Q连接架构,将量子处理器(QPU)与GPU超级计算机直接连接,以实现量子纠错和混合模拟,并获得17家量子计算公司和8个美国能源部(DOE)实验室的支持 [35][38][40][43][45][46] * 与美国能源部(DOE)合作,将建造七台新的AI超级计算机以推动国家科学发展 [47][48] * 企业应用:宣布与 CrowdStrike 在网络安全领域合作,与 Palantir 在数据处理和商业洞察领域合作 [150][151][152][153] * 自动驾驶:推出NVIDIA DRIVE Hyperion平台,为全球汽车制造商提供机器人出租车就绪的标准化底盘,并宣布与Uber合作,将此类车辆接入全球网络 [169][170][172][173] * 机器人技术与制造业:与富士康(Foxconn)、Figure、迪士尼等合作,利用数字孪生和物理AI技术建设未来工厂和发展机器人技术 [158][160][162][163][165][166][167] 5 美国制造与产业回流 * 公司响应将制造业带回美国的号召,其Blackwell AI超级计算机的供应链(从亚利桑那州的硅晶圆到德克萨斯州的系统组装)已在美国建立,并开始全面生产 [112][113][115][116] * 这被视为美国再工业化和在AI时代重掌制造业领导地位的重要篇章 [115][116][158] 其他重要但可能被忽略的内容 * **数字孪生与Omniverse平台**:公司强调使用Omniverse DSX平台进行AI工厂和实体工厂的数字孪生协同设计、模拟和运营,这可以显著缩短建设时间并优化性能 [132][133][134][155][156][160] * **对开源模型的重视**:公司强调开源AI模型对研究人员、初创公司和各行各业的重要性,并宣称自己是开源贡献的领导者,拥有23个处于领先地位的开源模型 [138][139][140][141][142] * **AI对算力需求的重新定义**:公司指出,AI推理(尤其是思考)所需的计算量极其巨大,远非简单的记忆重现可比,这颠覆了此前“推理计算需求低”的普遍认知 [75][76] * **能源政策的影响**:公司提及前政府的亲能源政策对AI产业发展的关键作用,认为充足的能源供应是行业增长和赢得竞争的基础 [53]
GTC October 2025 Keynote with NVIDIA CEO Jensen Huang
Youtube· 2025-10-28 16:01
计算模型与平台转型 - 公司发明了60年来首个新的计算模型,即加速计算,旨在解决通用计算机无法处理的问题 [3] - 观察到晶体管性能提升因物理定律限制而放缓,摩尔定律已接近终结,加速计算的时代已经到来 [3] - 世界正经历两大平台转型:从通用计算转向加速计算,以及从传统手写软件转向人工智能 [48] - 加速计算需要全新的算法、库和应用程序重写,公司花费近30年时间分领域实现,其核心宝藏是CUDA编程模型及库生态系统 [3][4] CUDA生态系统与软件栈 - CUDA是公司的重要资产,包含350多个库,每个库都为加速计算重新设计了算法,并为生态系统合作伙伴打开了新市场 [4][5] - 库覆盖领域广泛,包括计算光刻(Qlitho)、稀疏求解器、数值优化、数据库加速(SQL、数据帧)、AI训练(CUDNN、Megatron core)、医疗影像(MonAI)、基因组学处理等 [4][5] - 软件栈已发生根本性改变,新的计算栈基于GPU构建,专注于处理数据密集型编程和生成AI tokens,而非传统的CPU和Windows系统 [13][14] - 保持CUDA跨代兼容性至关重要,目前已发展至CUDA 13/14,数亿GPU完美兼容,确保了开发者的平台粘性 [3][4] 人工智能(AI)工厂与规模化 - AI催生了新型基础设施——AI工厂,其本质是生产有价值tokens的工厂,专注于以高速率、低成本生成智能响应,而非运行多种应用的通用数据中心 [17][18] - AI模型智能化导致使用量激增,形成两个指数级需求:模型三个扩展定律(预训练、后训练、思考)对算力的需求,以及模型越智能使用越多带来的算力需求 [20][21] - AI已达到良性循环:模型足够智能使得用户愿意付费,产生的利润再投入算力建设,使模型更智能,应用更广泛 [21][22] - 为应对指数级算力需求并降低成本,公司采用极端协同设计方法,从芯片、系统、软件、模型架构到应用全栈重新设计,实现性能的指数级提升而非渐进式改善 [23][24] 产品与技术突破:Grace Blackwell 架构 - Grace Blackwell NVLink 72是极端协同设计的成果,通过将72个GPU连接成一个巨型GPU,专为未来拥有大量专家的AI模型设计 [25][26] - 相比前代H200 GPU,Grace Blackwell在每GPU性能上提升10倍,并生成全球最低成本的tokens,这得益于架构创新而非单纯晶体管数量增加 [27] - 公司已出货600万片Blackwell GPU,并拥有到2026年价值5000亿美元的累计订单可见性,Blackwell生命周期内预计将出货2000万GPU(每个封装含2个GPU),增长远超Hopper架构 [30] - 产品制造回归美国,涉及亚利桑那州、印第安纳州、德克萨斯州和加利福尼亚州的复杂供应链,单个Blackwell Ultra超级芯片包含1.2万亿个晶体管,重近2吨 [31][32] 行业应用与合作伙伴生态 - 宣布与诺基亚(Nokia)合作,推出NVIDIA ARC(Aerial Radio Network Computer)产品线,旨在基于加速计算和AI技术,让美国在6G革命中重回领导地位 [6][7] - ARC将支持AI for RAN(提高频谱效率)和AI on RAN(在电信网络上构建边缘工业机器人云),可升级全球数百万个基站 [7][8] - 在量子计算领域,推出NVQ-Link互联架构,直接将量子处理器与GPU连接,实现量子纠错、校准和混合模拟,并获得17家量子公司和8个美国能源部实验室支持 [9][10][11][12] - 与美国能源部合作建设7台新的AI超级计算机,以推动国家科学进步,认识到计算是科学的基础工具 [12] - 企业级合作包括与CrowdStrike合作加速网络安全AI代理,与Palantir合作加速其Ontology平台的数据处理能力 [41][42] 物理AI与机器人技术 - 物理AI需要三台计算机协同工作:用于训练的Grace Blackwell、用于数字孪生模拟的Omniverse计算机、以及用于机器人操作的Jetson Thor机器人计算机 [42][43] - 公司与富士康(Foxconn)合作在德克萨斯州建设机器人工厂,利用Omniverse数字孪生技术进行设计、模拟、训练和操作优化 [44] - 人形机器人(如Figure、Agility、Johnson & Johnson手术机器人)被视为未来最大的消费电子和工业设备市场之一,公司与迪士尼合作开发Newton模拟器用于机器人训练 [45][46] - 推出NVIDIA Drive Hyperion平台,为全球汽车制造商提供Robo-Taxi就绪的标准化传感器和计算底盘,并与Uber合作将其接入全球网络 [47][48] 基础设施与数字化(DSX) - 推出Omniverse DSX,这是一个用于设计和运营千兆级AI工厂的蓝图,实现建筑、电力和冷却与NVIDIA AI基础设施栈的协同设计 [37] - DSX利用数字孪生技术,在物理工厂建成前进行设计、规划、优化和操作模拟,可显著缩短建设时间,并为千兆级AI工厂每年带来数十亿美元的额外收入 [37] - 公司正在弗吉尼亚州建设一个AI工厂研究中心,使用DSX来测试和产品化Vera Rubin架构,从基础设施到软件 [38]
HAMi × NVIDIA:GPU 拓扑感知调度实现详解
AI前线· 2025-10-25 05:32
核心观点 - HAMi v2.7.0版本正式推出针对NVIDIA GPU的拓扑感知调度功能,旨在解决高性能计算和AI大模型训练场景下的多卡通信瓶颈问题 [2] - 该功能通过智能调度,将计算任务精确部署到物理连接最紧密、通信速度最快的GPU组合上,以最大化加速计算任务并提升集群整体的算力效能 [2] - 其设计哲学是用动态发现代替静态配置,用远见决策代替短视分配,构成了一套成熟、高效的GPU调度方案 [27] 核心特性总览 - 核心设计思想是先在节点本地将复杂的物理拓扑精确量化为设备间的“通信分数”,然后调度器基于这些分数做出最优选择 [5] - 具备动态计算拓扑分数特性,Device Plugin能够通过NVML动态探测节点上GPU间的物理连接拓扑(如NVLink、PCIe),并将其量化为通信分数 [6] - 采用双策略防碎片调度,Fit函数内置寻优算法,针对多卡任务和单卡任务自动采用“最佳匹配”与“最小破坏”策略 [6] 实现原理:拓扑注册与调度决策 - 拓扑注册阶段的目标是将GPU物理连接转化为调度逻辑可理解的标准化的数字分数 [9] - 信息探测环节通过NVIDIA的NVML获取所有GPU两两之间的物理连接类型(NVLink或PCIe) [11] - 数据建模与量化环节首先在内存中构建完整的GPU拓扑图,然后根据预设规则将连接关系计算转换为具体的通信分数 [11] - 最终产物是一个记录了每个GPU的UUID以及它与其他所有GPU之间通信分数的“设备分数表”,并被注册到节点的Annotation中 [11] - 调度决策阶段,Fit函数会先过滤掉不满足基本资源需求的GPU,然后基于设备分数表执行考虑了最佳匹配和最小破坏原则的寻优算法 [11] 代码深度解析:拓扑发现与分数计算 - 拓扑信息的发现与量化在Device Plugin本地完成,并最终生成可供上报的分数表 [13] - 构建拓扑图逻辑由`build()`函数完成,它初始化设备列表后,通过双重循环遍历所有GPU对,聚合连接信息,构建包含丰富连接信息的完整拓扑图 [15] - 量化为分数由`calculateGPUScore`函数完成,它会检查两个GPU之间的所有连接并根据详细的switch语句进行评分,最终分数是所有连接分数的总和 [15] 代码深度解析:设备端调度决策 - 调度决策核心逻辑位于设备端的`Fit()`函数中,该函数会根据请求的GPU数量自动切换寻优策略 [14] - 对于多卡任务(请求多于1个GPU),采用“最佳匹配”原则,目标是寻找内部通信总分最高的GPU组合 [19] - 具体实现是找出所有满足资源需求的空闲GPU,生成所有可能组合,计算每个组合内部所有设备对的分数总和,并选择分数总和最高的组合 [20][23] - 对于单卡任务(只请求1个GPU),采用“最小破坏”原则,目标是选择与其他可用GPU连接最“疏远”的卡 [22] - 具体实现是遍历所有可用单个GPU,计算每个GPU与其他所有可用GPU的分数总和,并选择总分最低的GPU,以保护拓扑完整性 [22] 使用方式 - 用户只需一个Annotation即可启用拓扑感知调度,调度器会根据任务请求的GPU数量自动应用相应的策略 [25] - 启用方式为在Pod的metadata annotations中添加`hami.io/gpu-scheduler-policy: "topology-aware"` [26]