Nvidia-英伟达新GPU突袭，性能拉爆当前旗舰

产品发布与性能 - 英伟达推出专为长上下文工作负载设计的专用GPU Rubin CPX 用于翻倍提升AI推理运算效率特别是编程和视频生成等超长上下文窗口应用 [1] - Rubin CPX是首款专为处理数百万级别tokens并进行AI推理的模型构建的芯片 [1] - 搭载Rubin CPX的Rubin机架在处理大上下文窗口时性能比当前旗舰机架GB300 NVL72高出最多6.5倍 [3] - 下一代旗舰机架NVIDIA Vera Rubin NVL144 CPX提供8 exaFLOPs的NVFP4算力比GB300 NVL72高出7.5倍 [5] - 单个机架提供100TB高速内存和1.7PB/s的内存带宽 [5] - Rubin CPX具备30 petaFLOPs的NVFP4算力和128GB GDDR7内存专门针对数百万tokens级别长上下文性能优化 [10] 技术架构与创新 - 公司将AI推理计算过程拆分为上下文与生成两个阶段分别由两块GPU运算 [1] - 上下文阶段属于计算受限需要高吞吐量处理能力摄取并分析大量输入数据以生成首个输出token [8] - 生成阶段属于内存带宽受限依赖高速内存传输和高带宽互联维持逐个token输出性能 [8] - 通过分离式处理两个阶段并针对性优化计算与内存资源显著提升算力利用率 [8] - 下一代旗舰服务器集成36个Vera CPU、144块Rubin GPU和144块Rubin CPX GPU [1] 商业价值与应用场景 - 部署价值1亿美元的新芯片将能为客户带来50亿美元收入 [5] - 大约20%的AI应用需要等待首个token出现例如解码10万行代码可能需要5-10分钟 [10] - 视频生成应用中预处理和逐帧嵌入会迅速增加延迟导致当前视频大模型通常仅用于制作短片 [10] - 公司计划以两种形式提供Rubin CPX：与Vera Rubin同装一个托盘或单独出售整机架CPX芯片匹配Rubin机架 [10] 产品路线图 - Rubin是公司将在明年发售的下一代顶级算力芯片基于Rubin的CPX预计到2026年底出货 [1]