Workflow
傅里叶的猫
icon
搜索文档
谷歌OCS(光交换机)的技术、发展、合作商与价值量拆解
傅里叶的猫· 2025-09-17 14:58
谷歌AI发展势头 - 谷歌推出Gemini 2.5 Flash Image 上线不到一个月新增2300万用户并生成超过5亿张图片 助力Gemini APP在多国应用商店登顶下载榜 [2] - 谷歌发布多项多模态大模型更新 包括Veo 3音视频同步生成 Genie 3实时交互世界 Imagen 4图片生成以及Pixel 10系列AI硬件整合 凸显AI研发领先优势 [2] - Gemini 3.0预计于2025年底推出 有望进一步提升模型能力 [2] 反垄断影响 - 美国地区法官公布谷歌搜索反垄断惩罚措施 强调恢复竞争而非惩罚 未采纳分拆等激进提议 好于市场此前悲观预期 [4] - 谷歌业务基本盘保持稳固 算法能力 生态优势和品牌口碑依然领先 流量获取成本TAC有望优化 整体影响可控 [4] OCS技术背景 - 传统Scale out网络中数据传输需要多次光电转换和电光转换 以H100千卡IB集群为例 数据从一台服务器传输到另一台通常需要经过8次转换 显著降低集群效率并增加延迟和能耗 [6] - 光信号在远距离高带宽传输场景下表现优于电信号 但现有技术无法直接对光信号进行灵活数据处理 必须先转化为电信号才能完成地址处理等操作 [8] - AI大模型数据流转具有高度可预测性 无需拆包查看地址 通过反射直接传输至目标服务器即可构建高效全光网络 相比传统互联网数据传输类似快递 AI数据中心全光网络更像地铁 [9] OCS主流技术方案 - MEMS方案是市场绝对主流占比超过70% 技术成熟参与企业多 性能指标均衡 端口扩展能力达320×320 成本较低切换速度快 [10] - MEMS通过微型反射镜角度调整实现光信号路径动态调整 每根输入光纤光信号经过MEMS反射镜引导到目标输出光纤 反射镜配备二维转轴通过调节角度改变反射方向 [10] - DRC方案采用全固态设计无运动部件 通过控制液晶分子结构变化实现光路折射 驱动电压极低可靠性和寿命明显提升 寿命达MEMS方案十倍 成本约4万美元低于MEMS方案5万美元 但切换速度仅毫秒级 [11][12] - 压电陶瓷方案目前没有详细信息阐述具体特点和优劣势 [13] OCS部署策略 - OCS技术核心优势场景是端口间映射关系稳定不需要频繁调整传输路径的网络环境 优先使用OCS可最大程度利用低功耗极低传输时延特性 [13] - 避免将OCS部署在需要高频率动态调整路径或有高度随机化流量模式的场景 这类场景会放大OCS切换时间长的问题导致网络整体效率下降 [13] - 通过合理规划网络拓扑结构提升OCS使用效率 如把高带宽需求且通信关系稳定节点集中到同一物理区域 通过OCS建立直接连接减少跨区域通信资源消耗 [13] 光交换机与传统电交换机差异 - 性能上光交换机通过直接提供稳定光通道传输数据时延极低接近光速 无需频繁进行光电转换 传统电交换机需多次光电转换并解包识别目标地址重新转发 大大增加数据传输时延 [14] - 功耗上光交换机不用进行信号转换能量损耗更少功耗优势明显 灵活性上传统电交换机更有优势 端口间全连接模式每个数据包能根据包头地址直接定位目标端口无需配置固定线路 仅需纳秒级数据处理时间 而光交换机重新配置内部固定线路适应流量变化目前切换时间毫秒级 [14] - 光交换技术更适合流量模式相对稳定端口间映射关系明确且不用频繁切换场景 传统电交换机更适合流量动态变化大需要频繁调整数据传输路径场景 [14] 成本与长期使用优势 - 长期使用下OCS交换机可实现约30%成本节约 因OCS寿命长如硅基液晶方案寿命约为MEMS方案十倍 MEMS方案寿命又长于传统电交换机 且无需频繁更换 同时单位端口能耗成本更低 [16] - OCS交换机初始成本较高当前设备单价通常在4-5万美元甚至更高 传统电交换机单价仅为几千至3万美元 对预算有限中小型数据中心初始投入压力较大 [16] - 时延方面OCS通过光通道直接传输数据时延可接近光速 相比传统电交换机时延提升约60%-70% 功耗上OCS相比传统电交换机可降低约40%功耗 [16] OCS端口数量问题 - 不同OCS技术方案端口数量存在限制 核心原因是技术实现难度和制造工艺水平差异 不同方案核心部件结构加工精度要求不同导致端口扩展天花板不一样 [17] - MEMS方案端口数量直接和光纤数量挂钩 每根光纤需对应一个微型反射镜 小镜子数量决定端口数量理论上限 [18] - 小镜子加工良率是关键限制因素 因MEMS芯片上小镜子需要极高加工精度 实际生产中难保证所有小镜子正常工作 例如谷歌某款MEMS芯片设计包含176个小镜子 但40个因加工不良被屏蔽 剩下136个中还有8个用于通道校准 最终实际有效端口数只有128个 [18] - 芯片尺寸与制造工艺矛盾也限制端口数量 增加芯片尺寸能容纳更多小镜子提升端口数 但随着芯片尺寸增大加工良率会明显下降 同时面临精度控制散热等技术挑战 [18] 光路系统关键部件 - 激光注入模块和摄像头模块核心目的是实现实时校准功能 不是直接参与数据传输 是保障光路长期稳定运行关键不是冗余设计 [19] - 校准系统用于调整MEMS小镜子偏转角度 确保光路始终处于预设精准状态 避免因设备老化导致光路偏移 [19] - MEMS小镜子偏转角度由焊盘上电压控制 随着设备使用时间增加机械转轴会出现老化磨损 导致偏转角度减小影响数据传输准确性 [19] - 激光注入模块发射专用波长光束对每个光路持续检测 摄像头模块捕捉光束实际传播路径判断是否存在偏移 一旦发现偏差系统自动调整控制电压使小镜子恢复到预设偏转角度 [19] - 校准过程依赖两套独立发射和接收单元 分别对应系统中两个MEMS芯片 实现对所有光路全面覆盖 [19] MEMS制造难点 - MEMS小镜子制造难点不是集中在镜面本身 而是体现在机械结构与电子控制集成环节 源于MEMS技术机电一体化核心属性 [20] - 每个MEMS芯片通常包含超过100个小镜子 每个小镜子不仅需要简单镀膜结构保证光反射效率 还必须集成复杂机械部件 最关键的是用于实现角度调整的小型转轴 尺寸极小在微米级别 对加工精度要求极高 [20] - 机械部件与电子控制芯片高度集成增加制造难度 小镜子角度调整依赖电子控制信号 需将机械转轴与电子控制电路在极小芯片空间内实现无缝衔接 既要保证机械结构灵活性又要确保电子信号稳定传输 [20] - 复杂集成结构导致加工良率较低 因涉及机械电子光学等多领域工艺要求 任何一个环节出现问题都会导致整个小镜子失效 例如谷歌某款MEMS芯片设计176个小镜子 最终因加工问题屏蔽40个 有效率不足80% [20] 发射和接收模组 - OCS中发射和接收模组是光路校准系统核心组成部分 主要涉及激光芯片探测器芯片无源光学器件等关键组件 用于保障校准激光信号稳定发射与精准接收 [22] - 有源组件包括激光芯片用于发射校准用激光束和探测器芯片用于接收校准激光束判断光路是否偏移 这两类芯片是模组核心功能部件 直接决定校准精度和稳定性 [22] - 无源光学器件包括滤光片过滤杂光确保校准激光纯度 准直透镜将激光束校准为平行光 棱镜改变激光传播方向 隔离器防止激光反射干扰保护激光芯片 这些器件用于优化激光束传输路径提升校准效率 [22] - 单套发射或接收模组总成本约1000美元 有源组件激光芯片加探测器芯片成本最高约占总成本60%-70% 无源光学器件成本约占15%-20%约150美元 其余成本为模组装配测试和封装费用约占10%-15% [23] 二色向分光片 - 二色向分光片是OCS光路校准系统中波长筛选关键部件 通过对特定波长光信号选择性透射或反射 实现校准光路与数据光路分离 确保校准功能精准运行 [24] - 核心功能是区分OCS系统中校准光信号和数据光信号 避免两者相互干扰 校准系统使用激光波长通常为850纳米 数据传输使用光信号波长通常为1310纳米 [24] - 二色向分光片通过特殊镀膜工艺实现对这两种波长选择性处理 对于850纳米校准光信号允许透射通过进入校准系统探测器芯片 对于1310纳米数据光信号则反射回数据传输路径阻止进入校准系统 [24] - 核心技术壁垒在于复杂镀膜工艺 需在镜片表面镀上多层不同材质不同厚度薄膜 每层薄膜对特定波长光信号产生干涉效应 实现850纳米透射1310纳米反射效果 镀膜工艺对薄膜材质纯度厚度均匀性层数控制要求极高 [25] - 二色向分光片还需具备高透光率对850纳米光信号透光率需达90%以上 高反射率对1310纳米光信号反射率需达95%以上 和长期稳定性镀膜层不易磨损氧化 [25] 微透镜阵列 - 微透镜阵列MLA是OCS设备刚需部件 核心功能是准直发散激光束 确保光信号在传输过程中稳定性 [26] - 光信号从光纤输出后会自然发散 若不进行准直会导致光信号衰减光路偏移影响传输效率和稳定性 MLA通过阵列化微型透镜将发散激光束校准为平行光 确保光信号在传输和反射过程中稳定性 [26] - 随着OCS设备出货量增长如谷歌每年部署1万台以上未来预计增长至10万台 MLA需求也将同步刚性增长 [27] - 国内厂商炬光科技是OCS领域MLA核心供应商之一 已进入部分头部OCS设备厂商供应链作为二级供应商二供提供MLA产品 部分OCS设备厂商如谷歌为保障供应链安全自行建立MLA生产线实现部分MLA自主供应 [27] - 单个MLA通道价格约1美元 一台OCS设备通常包含约270个通道 单台设备MLA成本约260美元占OCS设备总成本约6% 价格波动对OCS设备整体成本影响较小 [28] - 若按未来OCS设备出货量预测2030年可能达5-10万台长期有望达30万台 MLA市场规模将从当前数百万美元增长至数亿美元 随着OCS设备端口数量增加如从136×136扩展至300×300 每台设备所需MLA通道数量也将增加提升MLA单位设备价值量 [28] CPO与OCS区别 - CPO核心思路是把交换芯片和光模块封装在同一壳子里 光信号从芯片到光模块距离大大缩短时延和功耗降低 且能实时跟着数据流量变调整传输路径速度达纳秒级灵活性高 尤其适配英伟达GPU集群NVLink NVSwitch技术 [29] - OCS走全光路子靠MEMS反射镜或硅基液晶分子控制光信号路径 全程不用光电转换 时延接近光速功耗比电交换机低40% 但光路需提前配置调整路径速度仅毫秒级应对频繁变流量吃力灵活性差 [29] - CPO适合数据流向老变需要快速响应场景如AI大模型实时推理和云计算给不同租户分配资源 特别是英伟达GPU主导AI数据中心 [30] - OCS适合流量模式固定不用老调路径场景如大模型深度训练和数据中心上层网络冗余保护 像谷歌TPU集群特别适合用OCS既能满足低时延需求长期用还能省电 [30] 谷歌OCS模式 - 谷歌使用MEMS芯片采用自主设计加委托代工模式 芯片设计环节由谷歌自行完成 生产制造环节委托给瑞典专业代工厂Silex负责 [31] - 早期谷歌曾尝试从市场直接采购现成MEMS芯片 但因对端口数量切换速度可靠性等指标有定制化要求 市场通用产品无法满足其OCS系统适配需求 [31] - 谷歌决定组建团队自主设计MEMS芯片 从底层架构确保芯片与自身OCS设备TPU集群兼容性 同时优化芯片性能参数如提升小镜子角度控制精度降低驱动电压 [31]
英伟达Rubin的液冷新方案?
傅里叶的猫· 2025-09-16 15:57
文章核心观点 - 英伟达Rubin GPU可能采用微通道盖板作为新的液冷方案 该技术是封装级的两相直触式芯片冷却方案 相比传统冷板散热效率更高 结构更紧凑 以应对芯片功率提升至2300W的散热挑战 [2][5][8] - 微通道盖板的采用将增加快速断开连接器的用量 VR系列计算托盘内QD用量增至至少12个 高于GB300计算托盘的8个 [12] - 微通道盖板短期对现有液冷供应商影响有限 因为采用冷板的Blackwell系列仍占出货量相当份额 且10-20%的Rubin GPU单芯片版本仍使用冷板 但长期看微通道盖板可能随2027年下半年更多Kyber机架应用成为主流 挤压冷板市场需求 [13] - 产业界认为微通道盖板方案技术成熟度相对滞后 当前Rubin GPU产业链进度已无法支撑该方案在现有型号上落地 大概率需等到Rubin Ultra型号推出时才有可能被采用 [18][19] 投行观点 - 微通道盖板是封装级直接集成了热扩散器和冷板功能的冷却方案 通过在刻有微通道的铜基板上加盖板 利用歧管分配冷却液将芯片热量带走 微通道宽度在100μm至1mm之间 极小的尺寸能增加流体与壁面的接触面积 提升传热效率 [8] - JP Morgan认为2026年下半年Rubin GPU的双die版本或采用微通道盖替代冷板 单die版本TDP约1200W及Vera CPU 交换机IC仍将使用冷板 [11] - Morgan Stanley指出目前是ODM正在测试阶段 最终采用与否将在一两个月内确定 AVC公司也在研发微通道盖 但产能扩充可能需要一定时间 [14] 产业界说法 - 微通道盖方案在8月下旬已有市场流传 技术成熟度排序为单相冷板显著领先 双相冷板与浸没式散热基本持平 微通道盖相对滞后 客户接受度排序为单相冷板最高 随后为双相冷板 微通道盖 浸没式散热最低 [16][18] - 冷板供应商AVC和双鸿认为微通道盖相关方案大概率需等到Rubin Ultra型号推出时才有可能被采用 当前Rubin GPU产业链进度无法支撑该方案在现有型号上落地 [18] - 盖板领域核心企业Jentech 冷板头部厂商AVC与Auras均已针对微通道盖展开前沿技术研究 但尚无法判断哪家企业能最终占据主导地位 关键取决于谁能率先突破技术瓶颈推出量产级产品 [21] - 3D打印方案是散热领域前沿研究方向之一 能够实现更精细尺寸的散热结构加工 满足微通道设计中更小流道 更高散热效率的新需求 [21]
中美关系缓和,花旗大幅上调胜宏
傅里叶的猫· 2025-09-15 15:14
文章核心观点 - 花旗报告强调AI服务器PCB价值量显著提升 从GB200/GB300的375美元增至VR200的863美元 并指出无线缆设计、中板/背板技术推动行业变革 [5][7][9] - AI-PCB市场需求高速增长 2026年规模预计达720亿元人民币 年复合增长率达98% 但受高端设备和材料短缺制约 产能扩张可能低于预期 [10][13] - 胜宏科技凭借产能扩张速度和量产能力 预计2025-2027年英伟达订单贡献营收年复合增长率71% 成为AI-PCB核心受益者 [14][20][24] PCB技术演进与价值量提升 - 无线缆设计采用板对板连接器和PCB中板 减少故障点并提升芯片密度 VR200 NVL144机架可容纳396个计算和网络芯片 [7][8] - 中板(连接VeraCPU与CX-9及Bluefield芯片)和背板(连接计算托盘与交换机托盘)技术从VR机型开始应用 直接推高PCB价值量 [8][10] - Rubin Ultra机型若采用正交背板 每GPU对应PCB价值量额外增加486美元 规格达78层且采用M9覆铜板 [10] AI-PCB市场需求与产能 - 2023-2026年AI-PCB总市场规模(TAM)从44.36亿元人民币增至718.41亿元人民币 年增长率达215%/160%/98% [13] - 交换机市场2026年TAM达18.34亿美元 800G交换机出货量从2024年60千件增至2026年800千件 [12][13] - 英伟达GPU出货量2026年达6480千件 Rubin机型贡献2000千件 ASIC出货量2026年达7000千件 较2024年增长386% [12][13] - 高端设备短缺和18个月产能建设周期导致供给紧张 行业护城河体现在良率和产品质量 [10] 胜宏科技产能与订单 - 2025-2027年末总产能达310亿/560亿/830亿元人民币 惠州工厂2027年产能400亿元 泰国工厂2027年产能190亿元 越南工厂2027年产能220亿元 [14][16] - 2025-2027年资本支出60亿/120亿/130亿元人民币 英伟达订单贡献营收89亿/147亿/260亿元人民币 占比总营收42%/36%/43% [15][20] - 在GB300计算托盘/交换机托盘份额70%/50% 在VR机型计算托盘/交换机托盘/中板份额65%/50%/20% 在VR Ultra背板领域份额50% [20][10] 北美CSP厂商PCB需求 - 谷歌2026年PCB订单100亿元 需求30-40层板 厚度4-6毫米 材料M6-M9级别 主要供应商为沪电、深南电路、生益电子和TTM [25] - 亚马逊2025年PCB需求110亿元 2026年持续增长 TTM和生益电子为主供应商 深南电路预计2025年进入供应链 [26] - Meta高端PCB需求由方正、景旺、崇达和博敏等厂商竞逐 [27]
聊一聊Memory--被低估的万亿赛道
傅里叶的猫· 2025-09-14 13:42
文章核心观点 - 存储芯片市场在2024年达到1670亿美元历史新高 其中DRAM市场规模973亿美元 NAND Flash市场规模696亿美元 [4] - AI端侧设备如AI手机和AI电脑推动存储需求向高容量 高带宽 低功耗方向发展 LPDDR5或LPDDR5X成为主流选择 [9] - 存储芯片价格自2023年底触底回升 2025年上半年预计整体涨幅至少3%-5% 2025年下半年DRAM和NAND Flash因供应短缺持续涨价 [12][14] - HBM作为AI关键存储需求强劲 营收预计从2024年170亿美元翻倍至2025年340亿美元 HBM3E占2025年总需求64% [14][15] - 3D堆叠技术通过立体层叠实现更大容量和更快传输 成为满足AI存储需求的关键技术 国内企业如紫光国微 长鑫存储 长江存储已布局研发 [19] - 存储芯片产业链利润水平差异大 设计环节利润最高 封测和模组环节利润最低 下游需求中服务器和汽车领域加单较多 手机和PC需求疲软 [23] - 美光冻结报价并计划涨价20%-30% 海力士和三星分别涨价12%和22% 主要因AI需求导致产能紧张 [25] 存储芯片概述 - 存储芯片分为易失性存储和非易失性存储两大类 易失性存储断电后数据消失 如内存条 非易失性存储能保留数据 如U盘或固态硬盘 [5] - 易失性存储包括SRAM DRAM和HBM SRAM速度快但成本高 用于CPU缓存 DRAM速度较快容量大 用于智能手机 PC 服务器和AI计算 HBM通过3D堆叠实现高速度和带宽 用于AI加速器如GPU [6][7] - 非易失性存储以NAND Flash和NOR Flash为主 NAND Flash容量大成本低但写入速度较慢 用于SD卡 固态硬盘等 NOR Flash随机读取速度快 用于物联网设备 汽车CPU等 [8] AI端侧设备存储需求 - AI设备需要支持复杂数据模型运行 存储要求高容量 高带宽 低功耗 运行参数超过60-70亿的模型需DRAM内存容量至少14-15GB [9] - 存储带宽和速度不足会导致模型加载时间延长 影响用户体验 功耗控制关键因CPU在AI计算中耗电多 存储功耗高会提升整体能耗 [9][11] - AI设备中存储成本占比可能达硬件成本10%-20% 高于传统设备 [9] 存储芯片性能参数 - 带宽决定数据传输速度 高性能存储可达1TB/秒 低带宽成为AI训练和推理瓶颈 [10] - 延时指数据处理响应时间 低延时对实时场景如汽车自动驾驶重要 [11] - 容量不足会导致大模型无法运行 低端服务器至少需要128GB单条存储 [11] - 功耗需适应5V-6V低压 尤其对车载或移动设备关键 [11] - 寿命即擦写次数 超过后设备失效 对长期运行AI设备重要 [11] 存储芯片市场动态 - 2021年需求旺盛价格大涨 2023-2024年进入库存消化期价格低迷 2023年底价格触底回升 [12] - 2025年上半年整体涨幅至少3%-5% 2025年下半年DRAM交易放缓但DDR4价格反弹 NAND Flash价格Q3上涨 供应短缺可能持续到2026 [12][14] - 国内厂商长鑫存储和长江存储份额较小 全球市场由三星 海力士和美光主导 [10] 3D堆叠技术 - 3D堆叠通过立体层叠在有限空间实现更大容量 更快传输和更低功耗 分封装级和晶圆级 封装级已规模应用如HBM 晶圆级还在研发 [19] - 技术突破需改进材料 包括硅晶圆 靶材 光刻胶和电子特气 要求更高平整度 纯度 均匀成分和分辨率 [19] 存储芯片产业链 - 上游包括材料与设备 如ASML的光刻机 日本信越化学和SUMCO的硅片 国内沪硅产业 江化微 安集科技 [20] - 中游设计负责电路和性能定义 如兆易创新和北京君正 [20] - 中游封测与模组包括通富微电 长电科技 江波龙 朗科科技 [21] - 设计环节利润最高 技术门槛高溢价空间大 流片环节次之 封测和模组利润最低 [23] - 下游需求中服务器因AI数据中心扩张加单较多 汽车因智能驾驶需更多存储 手机和PC需求疲软增量有限 [23] 最新涨价情况 - 美光冻结报价并计划涨价20%-30% 汽车类涨价70% 闪迪涨10% 海力士5月涨12% 三星4月DDR4涨22% [25] - 涨价主要因AI需求导致产能紧张 包括代工厂挤占 [25]
半壁江山都来了!最燃AI芯片盛会最终议程公布,同期超节点研讨会深入解读华为384
傅里叶的猫· 2025-09-12 10:42
峰会概况 - 2025全球AI芯片峰会将于9月17日在上海浦东喜来登由由大酒店举行 主题为"AI大基建 智芯新世界" 聚焦AI新基建热潮及大模型下半场中国芯片破局[2] - 该峰会自2018年首次举办以来已邀请180+位产学研专家分享前沿研究 是国内AI芯片领域最具影响力的产业峰会之一[2] - 峰会结构包括主论坛 专题论坛 技术研讨会及展览区 展览区有超摩科技 奎芯科技等10+展商参展 AWE为战略合作机构[2][3] 主论坛议程 - 中山大学王中风教授发表《塑造智能未来:AI芯片的架构创新与范式转移》探讨三大解决方案突破瓶颈[7] - 云天励飞CEO陈宁分享《芯智AI 推理未来》介绍AI推理趋势及公司芯片布局[7] - 华为昇腾芯片总经理王晓雷解析《Open CANN:Why What & How》涉及CANN开源及计算系统架构[8] - 行云集成电路CEO季宇探讨《谁困住了AI产业》提出将大模型基础设施从大型机化转为白盒组装机化[9] - 奎芯科技副总裁唐睿演讲《Chiplet AI算力的基石》讨论Chiplet提升设计灵活性及内存带宽[9] - 清华大学刘学分享《智算超节点通信关键技术》介绍Scale-up通信互联解决方案[9] - 新华三总监刘善高解析《超节点集群的思考与实践》分享超节点技术路线及发展路标[9] - 高端对话由智一科技张国仁主持 与和利资本 普华资本等投资机构探讨大模型下半场中国AI芯片破局[10] 专题论坛:大模型AI芯片 - 上海交通大学冷静文教授报告《数据流体系架构研究进展》分析GPU架构优劣及数据流进展[18] - 曦望Sunrise副总裁陈博宇分享《大模型下半场:算力基础设施破局与产业协同》强调性价比为生死线[18] - 爱芯元智副总裁刘建伟探讨《以高智价比AI芯片重构"云-边-端"算力格局》介绍自研AI原生处理器[19] - 墨芯人工智能副总裁尚勇解析《AI普惠的"加速卡"》讨论双稀疏化算法与软硬协同设计[19] - 江原科技CTO王永栋分享《国产大算力AI芯片的突围与超越》探讨打破技术封锁策略[20] - 迈特芯工程师李凯介绍《面向个人智能体的端侧大模型芯片》基于国产工艺和3D-DRAM技术[20] - 北京智源研究院经理门春雷分享《面向多元AI芯片的统一编译器FlagTree》支持跨平台运行[20] - 北极雄芯副总裁徐涛探讨《前沿架构支持大模型应用的实践及展望》介绍Chiplet定制化方案[21] - Alphawave销售经理邓泽群解析《高速连接解决方案加速AI HPC Networking行业应用》分享IP及Chiplet方案[21] 专题论坛:AI芯片架构创新 - 清华大学胡杨副教授报告《晶圆级芯片计算架构与集成架构探究》探讨单片集成方式及设计约束[22] - 上海交通大学刘方鑫助理教授分享《面向人工智能多元场景的软硬件协同加速研究》涉及动态压缩框架及拟态计算[23] - 奕斯伟计算副总经理居晓波解析《RISC-V AI芯片的创新和应用》介绍64位RISC-V CPU及自研NPU[24] - Andes晶心科技经理林育扬探讨《人工智能与应用处理器中的创新应用》分析DeepSeekAI模型优势[24] - 酷芯微电子CTO沈泊分享《AI芯视界 智能眼镜芯片技术与创新》解决AI计算及功耗挑战[25] - 芯来科技助理副总裁马越解析《RISC-V深度耦合NPU 加速AI时代芯应用》推出矢量处理器及NPU IP[25] - 芯枥石CEO汤远峰探讨《端侧AI芯片的架构演进和挑战》覆盖政务医疗等行业方案[26] 技术研讨会:存算一体AI芯片 - 北京大学孙广宇教授报告《基于DRAM近存计算架构的大模型推理优化》分析DRAM近存计算芯片特点及挑战[34] - 中科院计算所研究员王颖探讨《异质异构存算一体芯片与系统软件栈》结合2 5D/3D集成技术优化AI应用[35] - 复旦大学陈迟晓副研究员解析《存算一体2 5D/3D/3 5D集成芯片》讨论先进集成技术可扩展性及挑战[35] - 微纳核芯副总裁王佳鑫分享《三维集成存算一体AI芯片》介绍18篇SCI论文研究成果[36] - 寒序科技CEO朱欣岳探讨《超高带宽磁性AI推理芯片的材料 器件 设计与算法联合优化》聚焦神经形态计算[36] 技术研讨会:超节点与智算集群 - 阿里云孔阳博士报告《AI应用发展与超节点趋势》负责数据中心互连方案设计[37] - 华为云专家侯圣峦分享《华为云超节点实践分享》解析CloudMatrix384超节点全对等互联架构[38] - 壁仞科技总监董朝锋探讨《OCS全光互连光交换超节点》介绍光跃LightSphere X获SAIL奖技术[38] - 之江实验室副主任高翔分享《智算集群深度可观测系统》实现故障控制及高效运维[39] - 矩量无限副总裁杨光解析《基于容器技术的异构芯片协同调度尝试》分享容器技术实践[40] - 中国电信经理孙梦宇探讨《国产算力优化的思考与实践》构建自动化评测及调优体系[40] - 基流科技VP陈维分享《Mercury-X 全栈自主的下一代AI智算系统》介绍全栈自主架构及高可用解决方案[41]
国外ASIC更新:谷歌/亚马逊/Meta/OpenAI最新进展,出货量数据等
傅里叶的猫· 2025-09-12 10:42
AI公司自研芯片发展态势 - 谷歌2026年TPU预计出货量从180万张上调至270万张 因上游晶圆代工厂产能分配持续提升且需求目标明确[5] - 谷歌与博通当前TPU需求达270-280万张 因公司为CoWoS领域一线客户且满足优先分配条件[5] - TPU出货预期每月持续上升 从120万、150万、180万增至200万张 未来仍将进一步提升[5] Meta芯片技术突破与规划 - Meta启动2纳米制程ASIC副项目 含高端"奥林匹斯"与中低端双项目 预计2027年下半年量产[6] - 高端芯片配备双计算核心及12组HBM3E内存 由博通研发 可能成为首家实现12组HBM配置的云服务商[6] - 中低端项目采用客户自有技术模式 后端设计外包 竞标方包括迈威尔、联发科、通富微电与日月光[6] 其他云厂商ASIC进展 - 亚马逊云科技2026年ASIC出货预期不变 因属二线客户 产能获取需依赖其他客户配额释放或产品结构调整[8] - OpenAI芯片预计2026年第四季度量产 初期出货13.6万片 xAI芯片信息有限前景不明[8] - 苹果ASIC因内部意见分歧研发延迟 2026年量产可能性极低 部分团队认为已采购足量GPU无需自研[8] 新兴ASIC动态 - 甲骨文ASIC预计2027-2028年量产 终端客户可能为中国云厂商[9] - Meta副项目虽出货量较低 但因平均售价预期较高 对设计服务商具备竞争价值[7]
英伟达Rubin CPX 的产业链逻辑
傅里叶的猫· 2025-09-11 15:50
文章核心观点 - 英伟达推出Rubin CPX专用预填充加速器 解决AI推理中预填充和解码阶段硬件需求矛盾 通过专用硬件设计显著降低成本并提升效率[1][2][3] - 第三代Oberon架构机架采用无电缆设计和全液冷方案 实现更高计算密度和散热能力[8][9][10] - 行业竞争格局可能被重塑 竞争对手面临更大压力 GDDR7需求可能爆发[13][15][16] AI推理硬件需求矛盾 - AI大模型推理存在预填充(prefill)和解码(decode)阶段硬件需求矛盾:预填充阶段需要高计算能力但内存带宽需求低 解码阶段需要高内存带宽但计算需求低[2][3] - 通用GPU方案导致资源浪费:预填充阶段HBM内存带宽利用率仅0.7% 解码阶段计算能力过剩[3][7] - 专用硬件解决方案可提升效率:预填充阶段每小时浪费TCO从R200的0.9美元降至CPX的0.16美元[6][7] Rubin CPX配置特点 - 采用GDDR7替代HBM:内存带宽从R200的20.5TB/s降至2TB/s 但成本降低80%[4][6] - 封装和连接简化:从CoWoS封装改为FC-BGA SerDes速率从224G降至64G(PCIe Gen6)[4][5] - 成本效益显著提升:BOM成本仅为R200的25% 但提供60%计算能力[6] - 内存利用率优化:带宽利用率从0.7%提升至4.2% 容量浪费从286GB降至123GB[7] Oberon机架架构升级 - 无电缆设计:采用Amphenol板对板连接器和PCB中板 消除飞线故障点[9] - 计算密度提升:单个计算托盘容纳4个R200 GPU+8个Rubin CPX+2个Vera CPU 整机架达396个计算和网络芯片[9] - 全液冷散热方案:功率预算达370kW 采用三明治设计共享液冷冷板 支持7040W托盘功率[10] - 灵活扩展能力:支持单独添加VR CPX机架通过InfiniBand/以太网连接 可调整预填充与解码比例[12] 行业竞争影响 - AMD面临压力:MI400机架19.8TB/s带宽被R200的20.5TB/s超越 需重新规划产品路线[13] - 云计算厂商受冲击:谷歌TPU需开发专用预填充芯片 AWS Trainium3机架需额外设计EFA侧机架[13] - 定制ASIC公司处境困难:在硬件专用化趋势下可能被成本压制[13] - GDDR7需求增长:三星因产能充足获得大订单 SK海力士和美光因专注HBM产能受限[15][16] 产业链变化 - PCB价值量提升:每GPU的PCB价值从GB200的400美元升至VR200的900美元[21] - 中层板需求增加:每个NVL144需18个中层板 采用44层PTH PCB[20] - 液冷系统需求扩张:每颗CPX芯片需配冷板 同时拉动转接头、CDU和管路需求[22] 未来发展方向 - 可能推出解码专用芯片:减少计算能力 增加内存带宽 进一步优化能效[14] - 硬件专用化趋势加速:预填充和解码阶段可能分别采用不同专用芯片[14]
Oracle的4550亿订单,AI持续向好,TPU进展如何?
傅里叶的猫· 2025-09-10 12:29
甲骨文AI云收入指引 - 甲骨文给出未来5年AI云收入指引:2026年180亿美元、2027年320亿美元、2028年730亿美元、2029年1140亿美元[2] - 到2030年AI云收入预计再翻8倍[3] - 4550亿美元未执行订单为未来3-5年收入提供强力保障[3] - 未执行订单增长主要来自与OpenAI、xAI、Meta等公司的AI云基础设施合同[5] 海外云服务提供商资本开支与业绩 - Alphabet第二季度总收入964亿美元(同比+14%)、净收入282亿美元(同比+19%),2025年资本开支指引850亿美元用于AI基础设施[8] - Meta第二季度总收入475亿美元(同比+22%)、净收入183亿美元(同比+36%),2025年资本开支指引660亿-720亿美元用于AI服务器[8] - Microsoft第四财季总收入764.4亿美元(同比+18%)、净收入272亿美元(同比+24%),2025年资本开支指引800亿美元用于AI数据中心[8] 谷歌TPU出货量与价格分析 - 2025年TPU预计出货250万片:Q1 50万片、Q2 55万片、Q3 70万片、Q4 75万片[16] - V5系列占比76%(190万片),其中V5E 120万片、V5P 70万片;V6系列占比24%(60万片)[16] - 2026年TPU预计出货超300万片(同比+20%),V5系列80万片(V5E 30万片、V5P 50万片)、V6系列160万片、V7系列60万片(V7E 50万片、V7P 10万片)[19][20] - 2025年平均售价约4500美元,2026年预计升至4500-5000美元(涨幅约10%)[18] - 具体型号定价:V5E 3000美元、V5P 6000美元、V6E 4000美元、V6P 8000美元[19] - 2026年TPU营收预计150-160亿美元(同比+33%-42%)[21] 自研AI芯片竞争格局 - 海外云服务提供商自研AI芯片迭代激进(如AWS、谷歌、Meta每年迭代一次),国内昇腾910B和寒武纪590为几年前产品[8][10] - 2026年自研芯片出货量预估:博通TPU v7p+v8p 274.6万颗(收入257亿美元)、Meta MTIA v3 113万颗(收入29.4亿美元)、Trainium 3 81.3万颗(收入17.5亿美元)[13] 供应链与技术演进 - 谷歌TPU供应链中博通占比70%,联发科负责20%-30%后端生产(V7系列)[22] - 引入联发科目的为降本及分散供应链风险[22] - 芯片工艺持续升级(5nm/4nm→3nm/2nm),预计每年价格下降超5%[21]
液冷龙头的海外业务与规划
傅里叶的猫· 2025-09-09 13:07
文章核心观点 - 液冷龙头Y在海外业务特别是与Meta和天弘科技的合作中实现快速增长 并通过与英伟达等科技巨头的合作在液冷产业链中占据重要地位 公司通过全链条布局和早期介入策略在竞争中保持优势 并计划进一步拓展海外市场和新技术应用 [1][2][3][4][5][6][7][8][9][10][11] 与Meta和天弘的合作 - Meta未来两年多在液冷相关领域需求预计8-9亿美元 其中纯液冷整柜需求约占1/4 [2] - 天弘科技作为Meta集成商 自身交换机整柜液冷需求达30-40亿元人民币 [2] - 液冷龙头Y通过天弘科技间接向Meta供货 现阶段是天弘科技唯一对接供应商 [2][3] - 协议至少覆盖两年周期 液冷龙头Y保底年供货额不低于10亿元人民币 目标份额为200个柜子 [3] - Meta年需求约三四亿美元 折算人民币约二三十亿元 加上天弘科技自身需求 总额确定在30多亿人民币 [3] - 天弘科技还与Google和亚马逊等客户有合作 预计2026年起带来更多订单 [3] 与英伟达的合作 - 液冷龙头Y部分接头产品已供给广达等集成商 并进入英伟达供应商名录 [6] - 针对英伟达新项目如manifold NPQD接头和CDU取得初步进展 NPQD接头已小批量供货 CDU进入名录但未实际供货 [6] - NVL72的manifold价值约7800-8200美元 加上接头总价值约2.5万美元 [7] - 冷板产品针对GB300芯片 单块价格240-260美元 108块总价值约2.8万美元 [7] - 预计2026年液冷龙头Y在英伟达CDU manifold和冷板市场占有率将达x%以上 [7] - 液冷龙头Y液冷业务净利率约xx% 其中接头和CDU更高 冷板稍低 [7] 公司规划 - 2026年公司海外营收目标达到XX亿 平均毛利率预期在40%以上 [8] - 英伟达Rubin架构推进可能重塑液冷市场 但CDU和接头仍不可或缺 [8] - GB300芯片100%采用液冷 GB200约75% 国内华为昇腾系列已使用液冷 [8] - 在昇腾服务器中 CDU份额超过xx% Manifold份额超过xx% 快接头及冷板在x%左右 [9] - 国内液冷产品毛利比海外低15个百分点 [10] - 液冷龙头Y在液冷应用项目中累计总容量达1.5-1.6GW 位居国内前列 [11] - 计划深化与Meta Google亚马逊的合作 2026年天弘科技液冷交换机需求将大幅增长 [11] 市场竞争与技术门槛 - 液冷龙头YCDU产品与维谛 Cool Master等巨头竞争 [6] - 冷板和CDU技术门槛主要在生产管控如良品率 而非核心设计 [11] - 液冷龙头Y通过自建工厂确保质量 与台系厂商差距主要在市场份额而非技术 [11] - 国内液冷市场竞争激烈 但液冷龙头Y凭借全链条布局保持领先 [11]
GB200 GB300液冷价值量拆解
傅里叶的猫· 2025-09-08 15:59
文章核心观点 - 文章对GB200和GB300的液冷系统价值量进行详细拆解和对比 重点分析冷板 快接头 软管 Manifold和柜外液冷等组件的成本变化 并讨论供应链从封闭转向多元化的趋势 特别提及英维克通过二级供应商策略参与市场竞争 [2][3][4] 冷板价值量分析 - B200采用3合一大冷板 覆盖2个GPU和1个CPU 单价650-680美元 GB300改用每芯片对应小冷板 单价降至240-250美元 但数量翻倍 计算机部分冷板数量变为3倍 交换机部分保持9块不变 [6] - GB200冷板总价值量为29250美元(650美元×45块) GB300为31770美元(240美元×108块 + 650美元×9块) [7] 柜内液冷组件价值量 - B300快接头数量增至252+18对 较B200的126+18对翻倍 B200快接头单价45美元/对 B300因定制NVUQB03规格涨至55美元/对 并附带软管 [7] - Manifold成本保持稳定 约28000美元/柜 软管成本从B200的1200美元/柜增至B300的1800美元/柜 [8][9] - GB200柜内液冷总价值量35680美元(45美元×144对 + 28000美元 + 1200美元) GB300为44650美元(55美元×270对 + 28000美元 + 1800美元) [10] 柜外液冷与供应商变化 - 柜外液冷以132KW总功耗为基础 维谛提供1350KW CDU覆盖8台柜子 价值量约75万美元/柜 未来Rubin288可能采用浸没+冷板方案 增加氟化液需求并推升成本 [10] - GB200时代柜外液冷由维谛主导 GB300引入5-6家供应商 包括维谛 施耐德 Nvent 宝德 Cooler Master和台达 供应链从封闭转向多元化 [11] - 冷板供应商从GB200的AVC和双鸿变为GB300以Cooler Master为主力 AVC 双鸿和宝德参与 GB300要求冷板以模组形式直接交付客户 Cooler Master部分冷板由英维克代工 AVC部分由同飞代工 快接头由川环供应 强瑞技术送样 [12] 英维克的战略与行业趋势 - 英维克冷板样品通过英伟达性能测试但被广达 鸿卡阻 后转为与Cooler Master合作担任二级供应商 避免直接竞争 [13] - 英维克CDU技术全国领先 同时发展ASIC和交换机液冷 交换机液冷方案与服务器趋同 NVL72 Switch预计全面转向液冷 [13] - 英伟达推动供应链本土化和多元化 国内企业面临机会但需竞争份额 [12]