Vera Rubin超算架构 - 财报，业绩电话会，研报，新闻

Vera Rubin超算架构

搜索文档

腾讯研究院AI速递 20260107

腾讯研究院· 2026-01-06 16:05

生成式AI硬件与平台重大进展 - 英伟达正式发布Vera Rubin超算架构，推理性能比Blackwell提升5倍、训练性能提升3.5倍、成本降低10倍，已大规模投产并将于2026下半年面世 [1] - Rubin平台由6个关键组件构成，包括Rubin GPU（50 PFLOPS算力）、Vera CPU（88核Olympus）、BlueField-4 DPU、NVLink 6等 [1] - AMD发布Helios全液冷机架平台，配备MI455X GPU（3200亿晶体管、432GB HBM4内存），性能比MI355X提升10倍，2027年推出2nm制程MI500 [2] - Helios机架拥有2.9 exaflops算力、31TB HBM4显存、43TB/s带宽，EPYC Venice CPU性能提升70%以上、线程密度提高30%以上 [2] 端侧与PC AI芯片竞争加剧 - 英特尔发布全球首款基于Intel 18A制程（1.8nm级）的第三代酷睿Ultra处理器，端侧AI算力达180TOPS，多线程性能提升60%、游戏性能提升77% [3] - 采用Foveros-S封装技术整合多种制程模块，配备Arc B390集成GPU支持AI多帧生成（每渲染1帧生成3帧），续航最长可达27小时 [3] - 首批搭载Ryzen AI 400系列处理器的AI PC将于2026年Q1出货，全年推出超120款产品，迷你PC AMD Ryzen AI Halo预计Q2上市 [2] AI模型与算法创新 - MiroMind发布MiroThinker 1.5旗舰版模型，仅30B和235B参数却在BrowseComp测试中刷新ChatGPT-Agent纪录，单条调用成本仅0.07美元 [5][6] - 核心创新在于将Interactive Scaling内化为训练机制，构建“推理-验证-修正”循环路径，通过主动求证、多轮校验和反幻觉过滤实现证据驱动推理 [6] - 采用时序敏感训练沙盒严格约束信息可见性，让模型杜绝复述结果、学会真实预测，突破传统Scaling Law的“做题家模式”转向“科学家模式” [6] 具身智能与机器人产业化提速 - 波士顿动力在CES 2026发布新一代全电动人形机器人Atlas产品版，身高1.9米、重90kg、56个自由度，最大工作半径2.3米、可搬运50kg负载 [8] - 与Google DeepMind建立长期AI合作，将Gemini Robotics（VLA）引入Atlas平台，2026年交付名额已锁定，首批进入现代汽车RMAC和DeepMind [8] - 现代集团宣布2028年在美国建设年产3万台机器人新工厂，未来几年向机器人与AI领域投入超260亿美元 [8] - 智元具身研究中心提出SOP框架，业界首次在物理世界后训练中深度整合在线、分布式和多任务机制 [9] - 实验显示四机并行学习3小时成功率达92.5%，训练速度达单机2.4倍，3小时在轨经验带来约30%性能提升，超越80小时到160小时预训练数据的边际收益 [9] AI应用与行业影响 - 英伟达同步发布端到端自动驾驶AI AlphaMayo和物理AI全家桶开源，包括Cosmos、Isaac GR00T等模型，可实现全程0接管自主驾驶 [1] - 香港科技大学教授团队让搭载GPT-5.2的乐奇AI眼镜参加《计算机网络原理》期末考试，30分钟获92.5分超越95%学生，多项选择题和单页短答题满分 [7] - Anthropic社区与代码负责人发布31天连载博客，核心技巧包括/init自动生成入职文档、Plan Mode先规划再动手、Subagents并行处理、Hooks生命周期插手、LSP语义级代码理解等31条实战经验 [10][11] 行业人才与组织动态 - OpenAI研发副总裁Jerry Tworek正式宣布离职，这位七年老兵是o1/o3推理模型之父和Codex编程模型核心研究员，离职理由是“想做在OpenAI做不了的研究” [4] - 这是OpenAI继Dario Amodei、Ilya Sutskever、John Schulman、Jan Leike等核心人才流失后的又一重磅离职 [4]

今夜无显卡，老黄引爆Rubin时代，6颗芯狂飙5倍算力

36氪· 2026-01-06 09:40

英伟达Vera Rubin AI超算平台发布 - 在CES 2026上，英伟达正式发布并宣布其下一代AI芯片架构Vera Rubin已全面投产，预计2026年下半年面世[1][3] - 该平台旨在解决AI算力规模化难题，目标是将算力变得像电力一样廉价，推动AI大爆发[8][10] Vera Rubin平台架构与性能 - 平台采用系统性设计，首次将CPU、GPU、网络、存储和安全作为一个整体来设计，核心思路是将整个数据中心变成一台AI超算[13] - 平台由六大关键组件构成：Vera CPU、Rubin GPU、NVLink 6、ConnectX-9 SuperNIC、BlueField-4 DPU、Spectrum-6 Ethernet[14] - Rubin GPU搭载第三代Transformer引擎，提供50 PFLOPS的NVFP4推理算力，性能达到上一代Blackwell GPU的5倍[16][27] - 引入专为智能体推理设计的Vera CPU，采用88个自研Olympus核心，I/O带宽和能效比直接翻倍[18] - NVLink 6提供单芯片400Gb/s交换能力，单GPU带宽3.6TB/s，Rubin NVL72机架带宽达260TB/s，超过整个互联网[22] - 集成计算单元（托盘）包含2颗Vera CPU、4颗Rubin GPU、1颗BlueField-4 DPU和8颗ConnectX-9网卡，算力达100 PetaFLOPS[24] 性能提升与成本降低 - 训练性能：Rubin架构训练模型速度达Blackwell架构的3.5倍（35 petaflops）[27] - 推理性能：推理任务速度达Blackwell的5倍（最高50 petaflops），单位token推理效率提升最高可达10倍，算力成本可降至原来的1/10[1][3][32] - 内存与带宽：HBM4内存带宽提升至22 TB/s，是上一代的2.8倍；单GPU NVLink互连带宽翻倍至3.6 TB/s[27] - 规模化训练：在超大规模MoE模型训练中，所需GPU数量相比Blackwell可减少至1/4，整体能耗显著下降[3][28] - 性能提升归因于NVLink 6提升互联带宽、Vera CPU与GPU协同调度减少空转、ConnectX-9与Spectrum-6深度协同突破集群规模限制[29] DGX SuperPOD与规模化部署 - 推出新一代DGX SuperPOD，连接多个Rubin NVL72机架形成更大AI计算集群，示例配置包含8个机架共576个GPU[37][39] - Rubin NVL72系统集成72块Rubin GPU、36块Vera CPU等组件，提供统一、安全的系统，可处理数千个Agentic AI智能体及数百万token上下文[41] - 该平台旨在提供开箱即用的AI基础设施，一次性解决数百个GPU互联与管理存储的问题[41] 安全与商用计划 - Rubin是首个支持第三代机密计算（Confidential Computing）的AI超算平台，实现模型参数、推理数据、用户请求的全链路加密[46] - 平台将由AWS、Microsoft Azure、Google Cloud、Meta、OpenAI等头部厂商首批部署，2026年下半年进入大规模商用阶段，下一代主流大模型预计将运行于此架构上[47] 自动驾驶与物理AI进展 - 发布端到端自动驾驶AI系统AlphaMayo，具备显式推理能力，能从摄像头输入到车辆动作执行全流程由模型完成，演示中实现全程0接管[51][53][55] - 宣布NVIDIA DRIVE AV软件首次搭载于全新梅赛德斯-奔驰CLA，提供L2级端到端驾驶[57] - 推出针对物理AI（Physical AI）的开源全家桶，包括模型、框架及基础设施，旨在加速机器人等具身智能发展[62] - 开源模型包括：世界模型Cosmos Transfer/Predict 2.5、推理模型Cosmos Reason 2、人形机器人模型Isaac GR00T N1.6，均已上线Hugging Face[64] - 发布开源框架Isaac Lab-Arena和统一调度平台NVIDIA OSMO，以缩短机器人开发周期[64][65] 边缘计算与硬件更新 - 推出全新Jetson T4000模组，将Blackwell架构带到边缘端，算力达1200 FP4 TFLOPS，是上一代的4倍，1000台起订单价1999美元，功耗70瓦[67][68][69] - 宣布Hugging Face上的开源机器人Reachy 2和Reachy Mini已完美适配英伟达Jetson平台[67] 产业观点与未来展望 - 公司认为计算产业正同时经历从传统计算走向AI以及整个软硬件栈底层重塑两次平台级转变，AI正成为全新的应用底座[72] - 指出智能体AI（Agentic AI）之后的下一个前沿是物理AI（Physical AI）[74] - 强调仿真模拟是物理AI体系的核心，AI需要在可控的数字环境中反复尝试以建立对世界的理解[85] - 提及像Perplexity这样同时调用多个顶尖模型的“多云协同”应用，代表了未来AI应用的基本形态[83] 其他产品信息 - 宣布DGX Station台式AI超算将于2026年春季上线，搭载GB300 Grace Blackwell Ultra芯片，拥有Petaflop级算力，支持在本地运行高达1万亿参数模型，LLM预训练速度达250,000 Token/秒[87][89] - 明确CES 2026没有消费级新GPU发布，连续五年在CES发布新硬件的传统终结，传闻中的RTX 50 Super系列或因GDDR7显存产能问题已取消[6][7]