Workflow
英伟达新GPU突袭,性能拉爆当前旗舰
英伟达英伟达(US:NVDA) 36氪·2025-09-11 01:13

产品发布与性能 - 英伟达推出专为长上下文工作负载设计的专用GPU Rubin CPX 用于翻倍提升AI推理运算效率 特别是编程和视频生成等超长上下文窗口应用 [1] - Rubin CPX是首款专为处理数百万级别tokens并进行AI推理的模型构建的芯片 [1] - 搭载Rubin CPX的Rubin机架在处理大上下文窗口时性能比当前旗舰机架GB300 NVL72高出最多6.5倍 [3] - 下一代旗舰机架NVIDIA Vera Rubin NVL144 CPX提供8 exaFLOPs的NVFP4算力 比GB300 NVL72高出7.5倍 [5] - 单个机架提供100TB高速内存和1.7PB/s的内存带宽 [5] - Rubin CPX具备30 petaFLOPs的NVFP4算力和128GB GDDR7内存 专门针对数百万tokens级别长上下文性能优化 [10] 技术架构与创新 - 公司将AI推理计算过程拆分为上下文与生成两个阶段 分别由两块GPU运算 [1] - 上下文阶段属于计算受限 需要高吞吐量处理能力摄取并分析大量输入数据以生成首个输出token [8] - 生成阶段属于内存带宽受限 依赖高速内存传输和高带宽互联维持逐个token输出性能 [8] - 通过分离式处理两个阶段并针对性优化计算与内存资源 显著提升算力利用率 [8] - 下一代旗舰服务器集成36个Vera CPU、144块Rubin GPU和144块Rubin CPX GPU [1] 商业价值与应用场景 - 部署价值1亿美元的新芯片将能为客户带来50亿美元收入 [5] - 大约20%的AI应用需要等待首个token出现 例如解码10万行代码可能需要5-10分钟 [10] - 视频生成应用中预处理和逐帧嵌入会迅速增加延迟 导致当前视频大模型通常仅用于制作短片 [10] - 公司计划以两种形式提供Rubin CPX:与Vera Rubin同装一个托盘 或单独出售整机架CPX芯片匹配Rubin机架 [10] 产品路线图 - Rubin是公司将在明年发售的下一代顶级算力芯片 基于Rubin的CPX预计到2026年底出货 [1]