英伟达Rubin CPX 的产业链逻辑

文章核心观点 - 英伟达推出Rubin CPX专用预填充加速器解决AI推理中预填充和解码阶段硬件需求矛盾通过专用硬件设计显著降低成本并提升效率[1][2][3] - 第三代Oberon架构机架采用无电缆设计和全液冷方案实现更高计算密度和散热能力[8][9][10] - 行业竞争格局可能被重塑竞争对手面临更大压力 GDDR7需求可能爆发[13][15][16] AI推理硬件需求矛盾 - AI大模型推理存在预填充(prefill)和解码(decode)阶段硬件需求矛盾：预填充阶段需要高计算能力但内存带宽需求低解码阶段需要高内存带宽但计算需求低[2][3] - 通用GPU方案导致资源浪费：预填充阶段HBM内存带宽利用率仅0.7% 解码阶段计算能力过剩[3][7] - 专用硬件解决方案可提升效率：预填充阶段每小时浪费TCO从R200的0.9美元降至CPX的0.16美元[6][7] Rubin CPX配置特点 - 采用GDDR7替代HBM：内存带宽从R200的20.5TB/s降至2TB/s 但成本降低80%[4][6] - 封装和连接简化：从CoWoS封装改为FC-BGA SerDes速率从224G降至64G(PCIe Gen6)[4][5] - 成本效益显著提升：BOM成本仅为R200的25% 但提供60%计算能力[6] - 内存利用率优化：带宽利用率从0.7%提升至4.2% 容量浪费从286GB降至123GB[7] Oberon机架架构升级 - 无电缆设计：采用Amphenol板对板连接器和PCB中板消除飞线故障点[9] - 计算密度提升：单个计算托盘容纳4个R200 GPU+8个Rubin CPX+2个Vera CPU 整机架达396个计算和网络芯片[9] - 全液冷散热方案：功率预算达370kW 采用三明治设计共享液冷冷板支持7040W托盘功率[10] - 灵活扩展能力：支持单独添加VR CPX机架通过InfiniBand/以太网连接可调整预填充与解码比例[12] 行业竞争影响 - AMD面临压力：MI400机架19.8TB/s带宽被R200的20.5TB/s超越需重新规划产品路线[13] - 云计算厂商受冲击：谷歌TPU需开发专用预填充芯片 AWS Trainium3机架需额外设计EFA侧机架[13] - 定制ASIC公司处境困难：在硬件专用化趋势下可能被成本压制[13] - GDDR7需求增长：三星因产能充足获得大订单 SK海力士和美光因专注HBM产能受限[15][16] 产业链变化 - PCB价值量提升：每GPU的PCB价值从GB200的400美元升至VR200的900美元[21] - 中层板需求增加：每个NVL144需18个中层板采用44层PTH PCB[20] - 液冷系统需求扩张：每颗CPX芯片需配冷板同时拉动转接头、CDU和管路需求[22] 未来发展方向 - 可能推出解码专用芯片：减少计算能力增加内存带宽进一步优化能效[14] - 硬件专用化趋势加速：预填充和解码阶段可能分别采用不同专用芯片[14]