黄仁勋携Rubin架构亮相CES,英伟达铁了心要做“AI卖铲人”

文章核心观点 - 英伟达CEO黄仁勋在CES 2026上系统阐述了人工智能产业正引发覆盖整个计算产业的结构性重置,并正式发布了面向“下一阶段AI前沿”的全新一代Vera Rubin计算架构 [1] - 公司认为AI正在驱动计算产业发生平台级迁移,其自身定位是为这场重置提供底层工具与系统能力的“卖铲人”,而非应用竞争者 [1][3] - 公司正将AI能力从数字空间推向物理世界,重点发展“物理AI”与“智能体AI”,并发布了相应的世界模型与推理系统 [4][6] - 全新Vera Rubin架构是专为智能体AI和物理AI设计的系统级算力底座,其设计理念从单一芯片转向以“阵列”和“机架”为最小单位,旨在锁定数据中心和主权AI实验室的采购 [9][14] - 此次发布旨在为整个AI行业定义新的竞争坐标系,竞争核心从模型参数转向算力、数据、模拟、系统工程能力的综合博弈,公司通过全栈集成的工程能力巩固其作为基础设施平台建设者的地位 [15] 行业趋势与公司战略定位 - 计算产业每隔10到15年发生一次底层重置,AI正在引发一次覆盖整个计算产业的结构性重置 [1] - AI驱动了两次同时发生的平台迁移:第一层是应用本身从“编写”变为“训练”,AI成为应用底座;第二层是整个计算栈被重写,GPU成为默认,推理变为持续“思考”过程 [3] - 全球传统计算体系规模约为10万亿美元,这部分基础设施正在被系统性地“现代化”为AI计算,投资资金来自企业研发预算、风险投资和整个工业体系的迁移 [3] - 公司在AI市场中的定位是“卖铲人”,为所有人提供新平台的基础设施,而非AI应用竞争者 [3] - AI将渗透到每一个国家、每一个行业、每一家企业,成为基础设施,应用形态将由智能体驱动 [15] 物理AI与智能体AI的演进 - 公司正将智能推入现实世界,重点发展“物理AI” [4] - AI能力演进分为几个阶段:预训练、强化学习、测试时推理,再到具备规划与执行能力的代理系统 [6] - 物理世界的挑战在于数据有限、昂贵且不可穷举,公司长期投入仿真与合成数据以解决此问题 [6] - 公司发布了NVIDIA Cosmos“世界基础模型”,用于理解物理规律、生成物理一致的场景数据,并在闭环中训练AI行动能力,旨在解决AI在现实世界中的“幻觉”问题 [6] - 该体系直接指向自动驾驶与机器人应用 [6] - 公司发布了全球首个具备推理能力的自动驾驶AI——Alpamayo,该系统在驾驶过程中会实时“思考”并口述决策逻辑,搭载该系统的梅赛德斯-奔驰CLA将于2026年第一季度正式上路 [6] - 公司的人形机器人系统通过合成数据生成解决物理世界数据匮乏难题,利用Cosmos模型将计算转化为数据以训练机器人 [7] - 公司构建了“三台计算机”架构护城河:一台用于训练,一台用于仿真模拟,一台用于边缘推理 [7] Vera Rubin计算架构技术细节 - 架构发布背景:摩尔定律放缓,模型规模以每年10倍速度增长,推理阶段token生成量以每年5倍速度增加,单纯依靠晶体管数量已无法支撑需求 [8] - Vera Rubin不是一个芯片,而是一个由6颗芯片组成、通过极端协同设计形成的系统级架构,专为智能体AI和物理AI设计 [9] - 系统由定制的Vera CPU与Rubin GPU组成,设计为双向一致、低延迟的数据共享结构 [11] - Vera CPU拥有88个物理核心,通过空间多线程技术实现176线程满速运行,强调功耗受限下的性能密度 [11] - Rubin平台搭载NVLink 6,提供高达3.6T/s的双向带宽以解决大规模集群通信瓶颈 [11] - Rubin GPU浮点性能超过Blackwell,晶体管数量仅为后者的1.6倍,依赖全新的张量核心与Transformer Engine设计 [11] - 系统实现“阵列化”:一个Vera Rubin计算托盘集成2颗Vera CPU、4颗Rubin GPU,配合BlueField-4 DPU与ConnectX-9网络 [13] - 通过第六代NVLink交换系统,18个计算节点可连接为整体,最多实现72颗Rubin GPU协同运行,像一颗“巨型GPU” [13] - 在完整的MVL72机架中,集成了6类全新芯片、18个计算托盘、9个NVLink交换托盘,总计约220万亿晶体管,整机重量接近两吨 [13] - 数据中心关键改动:每颗GPU可获得1.6TB/s的Scale-out带宽;通过BlueField-4将KV Cache与上下文管理放入机架,为每颗GPU额外提供最高16TB的可扩展内存空间 [13] - 网络部分,Spectrum-X以太网交换机首次引入Silicon Photonics技术,提供512个200Gb端口,能将成千上万机架连接为“AI工厂” [13] 系统性能、能效与商业模式 - 阵列在单机架内的计算密度提升了约3倍 [14] - 在处理如Cosmos等复杂模型时,六卡阵列能实现跨芯片的内存池共享,减少模型切分带来的性能损耗 [14] - 系统采用全集成的液冷方案,能在消耗更低能耗的同时,Rubin的功耗约为上一代Grace Blackwell的两倍,这一设计有望为全球数据中心节省约6%的能耗 [14] - 系统在系统级实现了全链路加密,覆盖PCIe、NVLink及GPU互联,并正式支持加密计算,为模型托管与跨组织部署提供安全基础 [14] - 六卡阵列标志着未来的算力单元以“阵列”和“机架”为最小单位,公司通过提供不可分割、高度协同的算力体,进一步锁定数据中心和主权AI实验室的采购偏好,以创造更多收入 [14] 行业竞争格局展望 - AI竞争不再只是模型参数之争,而是算力、数据、模拟、系统工程能力的综合博弈 [15] - 随着AI从数字空间走向物理世界,算力竞赛格局正在被重新划分 [15] - Rubin架构的出现是一条更加清晰的竞争分界线,在全栈集成的“暴力美学”面前,传统的、零散的硬件逻辑正面临降维打击 [15] - 公司既是平台的建设者,也是规则的塑造者,既推动开放,又牢牢掌握最核心的工程能力 [15]