Workflow
傅里叶的猫
icon
搜索文档
聊一聊AI ASIC芯片
傅里叶的猫· 2025-09-28 16:00
最近看了很多国内券商的研报,不得不说,有些质量还是非常高的,之前大家可能对国内券商的研 报有些误解。这篇文章参考自申万宏源的一个分析,来看下AI ASIC。 商业上,ASIC 是专用芯片,为下游特定场景(如训练、文本推理、视频/音频推理)定制,与客户 应用高度绑定。GPU 则是通用芯片,需兼容多场景,包括图像渲染,因此华为昇腾 NPU 或寒武纪 AI 芯片也可视为通用型。 ASIC 优势在于特定场景的高效与低功耗。GPU 基于冯诺依曼架构,运算需频繁寄存器交换,对存 储需求高,且保留图形渲染等闲置模块;ASIC 如谷歌 TPU、AWS Trainium2 采用脉动阵列架构,专 为矩阵运算设计,结果直接传递,减少数据交互,提高效率。 谷歌 TPU v5 测试显示,能效比为英伟达 H200 的 1.46 倍;在 BERT 推理中,每瓦性能提升 3.2 倍。 优势源于三点:3D 堆叠优化算力密度、DVFS 降低闲置功耗、HBM3e 内存突破带宽瓶颈(达 1.2TB/s)。 ASIC 单位算力成本更低。亚马逊 Trainium2 训练成本降 40%,推理降 55%;10 万卡集群可节省 12 亿美元初始投资。 大厂自 ...
超节点技术与市场趋势解析
傅里叶的猫· 2025-09-28 16:00
超节点领域的合作与方案 - 下游CSP大厂主要找服务器供应商定制整机柜产品 服务器厂商和国产GPU厂商也在规划自己的超节点机柜 但以NV方案为主[4] - 国内主流超节点方案包括腾讯ETH-X、NV NVL72或其变形、华为昇腾CM384、阿里磐久 这些已在市场推广或有客户购买 字节规划大模型以太网创新方案 以博通Tomahawk为主 还未推广 海光方案多为传统刀片式服务器 无类似创新方案[4] - ETH-X是腾讯开放生态 与博通、安费诺等电缆和PCIe厂商合作 主要推广方包括壁仞、壁仞华创和腾讯下游云公司 在甘肃庆阳数据中心有合作 使用博通Tomahawk作为交换机 PCIe switch处理GPU流量 安费诺处理静态通信 中航光电设计液冷散热[5] - 字节方案由华擎研发 与腾讯类似但GPU卡不同:腾讯用燧原S60、L600及未来卡 字节用寒武纪和自研ASIC卡 两者适配天数、沐曦、摩尔线程等国产GPU 但主GPU各有侧重[5] - 互联网大厂自研方案与华为384、海光96卡、摩尔跨柜方案本质不同在于应用偏向:CM384偏训练和大模型计算 腾讯ETH-X偏推理 字节大模型整机柜偏训练和高性能计算[5] - 服务器厂商需具备交换机和服务器开发能力 与博通、NV、国产GPU厂商有关系 在AI服务器8卡、16卡、32卡方案有市场占有度 才能进入CSP选型 目前入选供应商有华勤、华三、超聚变 浪潮和锐捷作为备用 海光独立生态[5] 市场占有率与供应商格局 - 超节点方案还未大规模占有市场 在传统AI服务器(8卡、16卡)中 浪潮占有率最高 其次H3C 再是宁畅、华勤 国产开放生态中 昇腾达80%-90%[6] - 从9月16日起 CSP大厂包括BAT被强制不能采购NV的合规卡 明年或后年国产卡需达30%-40% 目前比例约9:1和8:2 互联网厂商每年被约谈 但海外卡采购仍放大[6] - 字节今年海外:国内=8:2 明年升至6:4 阿里找华勤等在海外代做NV方案 已招标提供海外数据中心 阿里、字节、腾讯通过下游云公司代建计算中心 非直接持有 代建后签3-5年租赁协议[6] - 中兴通讯2025年高层调整 新郭总目标在阿里、字节占份额 目前在阿里AI服务器从末尾升至20%-25% 联想因盈利考核 在CSP份额低 字节10% 阿里腾讯个位数 2024-2025价格战参与低[6] - 阿里AI服务器份额:浪潮33%-35% 华勤23% 宁畅和华三各18% 通用服务器:浪潮30% 中兴27% 华勤18% 华三15%[7] - 腾讯AI服务器:华勤40% 浪潮23% 华三18% 通用:浪潮35% 超聚变30% 宁畅15%[7] - 字节AI和通用:浪潮和宁畅各35% 宁畅AI30%、通用28% H3C AI15%、通用18% 联想10% 英业达和富士康各5%[7] 厂商竞争与二线格局 - 浪潮在成本和报价竞争激进时总拿第一份额 最具竞争力 第二第三竞争不明朗 阿里中是中兴、华三、华勤 华勤成本弱但高层决策以份额为主 盈利次之 数据业务盈利率降[8] - 腾讯AI服务器研发标多给华勤 技术30%、报价50%、质量20% 故份额高 通用中超聚变主攻腾讯 报价商务积极 华勤份额基本0 字节浪潮和宁畅默契 第一第二[8][9] - 大厂浪潮优势:在字节2019自研ODM起步时支持最大 技术供应服务商务占优 在阿里腾讯靠报价[9] - 二线互联网厂商需求小 无规则 主流供应商不参与 美团只华三和超聚变合作 京东直接采买超聚变和浪潮 只有浪潮和超聚变等成本强厂商占比例 美团基本浪潮和超聚变份额[9] - 二线GPU厂商找服务器厂商共研超节点 因无华为海光生态优势、销售人员少、对玩法不熟 服务器厂商有渠道 二线GPU可借其客户生态 国际厂商有供应品牌优势 客户认可规范GPU[9] - 华为UBB模式互联和海光HL总线协议只限各自生态 非开放 目前CPU无强制 大家是否用华为或海光CPU不确定[9] - 国产服务器发展慢 AI生态迭代国外领国内一年 互联网领行业一年 国外800G刚批量 国内2026Q4兴起 行业2027年[9] 采购与自研芯片 - 腾讯阿里能买时偏NV卡 阿里平头哥:NV=3:7 字节NV:国产=7:3(前8:2) NV限购时 以租代购和带采解决开支需求 资本开支用不完时 有趋势挪到国产[10] - 阿里平头哥3.0对标A100 80% 字节ASIC推理对标H100 65%-70% H100更训 百度昆仑芯未详 平头哥4月前代工台积电 4-6中断、7恢复8停 后中芯国际 海外三星 合作伙伴浪潮和华擎[10] - 超节点趋势:国外业务模型数据千万级 单节点不满足、时延高 故扩8卡到64卡增算力减时延 国内未铺开 未来推理若数据增长单节点不足 或有大规模需求[10] - 国产GPU合作:浪潮和中兴主 沐曦华三华勤 燧原开放 超聚变负责 摩尔线程H3C浪潮多[10] 经济与技术方面 - 以华勤为例 AI服务器净利率1-2点 大厂毛利率7-8点 通用毛利率1-2% 无净利率 通用规模小 牺牲成本占市场 成本强厂商净利率最好5点[11] - 未来AI超节点后 净毛利升 从自控物料入手:单机100万 自控10万 低毛净 整柜两三百万 自控压上游价 增利润 加软件方案 提升附加值[11] - 软件方案:1000万超节点 软件增三四十万利润 若供应商能力足、CSP评估费用低于自研 由供应商做 主要担运维管理[11] - 超节点CPU比例升:至少16节点 每节点2CPU 共32 以384方案:2CPU+4GPU 与72方案(18节点36CPU)区别大 铜缆比例增 核心厂商安费诺和立讯[11]
阿里的磐久超节点和供应链
傅里叶的猫· 2025-09-27 10:14
阿里磐久超节点技术架构 - 采用双64 GPU超节点设计 每个计算节点配置4颗自研GPU 上下各16个计算节点 总计128个GPU [4][6] - 64个GPU为一组scale up单元 华为CM384包含384颗昇腾910C 英伟达NVL72包含72颗GPU [6][7] 互联技术对比 - 英伟达NVL72采用Cable Tray互联方式 Compute tray与Switch Tray通过线缆连接 使用NVLink私有协议 [8] - 华为CM384通过多机柜组成超节点 昇腾服务器与交换机采用线缆互联 [10] - 阿里采用无背板正交互联技术 计算节点横向放置 Switch节点纵向放置 直接插接无PCB中介 降低信号损耗 [12][14] 电光互联方案 - 英伟达NVL72的scale up使用铜连接 避免光互联带来的成本与功耗上升 [15] - 华为CM384采用全光互联 NPU与光模块比例达1:14 整系统需6912个400G光模块 导致高功耗与高成本 [15] - 阿里超节点在64 GPU组内scale up采用电互联(PCB/铜缆) ALink Switch间使用光互联 具体光模块数量未披露 [18][19] 系统性能参数 - 华为CM384系统算力达300 PFLOPS(BF16密集) 超越英伟达NVL72的180 PFLOPS 但系统功耗达559,378W 是英伟达145,000W的3.9倍 [21] - 华为HBM带宽1,229 TB/s 是英伟达576 TB/s的2.1倍 但能效比劣于英伟达(1.87 W/TFLOP vs 0.81 W/TFLOP) [21] - 阿里超节点功耗超300kW 介于英伟达与华为之间 未公布算力参数 [22] 生态与兼容性 - 阿里超节点宣称支持多厂商GPU/ASIC 但需兼容ALink私有协议 实际推广存在难度 [23] - 阿里自研GPU可兼容CUDA生态 构成当前阶段竞争优势 [24] 硬件互联架构 - 英伟达GB200与Grace CPU通过NVLink-C2C直连 [26] - 华为GPU/CPU均连接至UB Switch [25] - 阿里采用独立计算节点设计 GPU与CPU通过PCIe互联 连接线隐藏在机箱背部 [28][30] 服务器供应链分析 AI服务器集成 - 浪潮占据33%-35%市场份额 华勤占23% 某企业并列第三占18% [34] - 通用服务器领域浪潮占30% 中兴通讯占27% 华勤占18% 新华三占15% [34] - 中兴通讯目标夺取浪潮市场份额第一地位 [34] 液冷解决方案 - 高澜占30%份额 英维克占30%-40% 申菱环境占20%-30% [35] - 科华数据新进入液冷白名单 预计2026年业务扩张将稀释头部企业份额 [35] 光模块供应 - 华工科技为阿里云核心供应商 份额超25%-30% [35] - 光迅科技在400G光模块市占率30%-40% 800G模块已批量供货 采用JDM合作模式 [35] - 中际旭创与航锦科技等企业分食剩余份额 [35] PCB板技术升级 - 超节点主板层数达24-30层 超低损耗材料占比超60% 单卡价值量从900元升至1900元 [36] - 沪电股份为主力供应商 AI服务器PCB收入占比达35% 高端板毛利率超35% [36] - 沪电股份与深南电路合计占50%-60%份额 其余由国内主流PCB厂商分担 [36] 服务器电源供应 - 中恒电气与欧陆通为核心供应商 覆盖主要供应量 提供浸没式液冷集中供电电源 [37] - 科华数据新进入阿里UPS白名单 有望成为第三大供应商 此前已在腾讯占据较大份额 [37]
微软的新液冷技术、阿里加大资本开支
傅里叶的猫· 2025-09-24 12:37
微软微流控液冷技术 - 微软开发微流控技术的新型液冷方案 从晶圆层面而非芯片封装层面集成液冷 技术激进但量产可行性未知 [1][3] - 英伟达研发微通道盖板技术 将冷板与芯片封装集成 技术仍处于研发阶段 [3] - 英伟达Rubin可能推出液冷新方案 具体细节未明确 [4] 阿里云资本开支与AI算力投入 - 阿里在云栖大会宣布追加资本开支 在原有3800亿基础上进一步增加投入 [7][9] - 新增资本开支将重点投向AI芯片领域 持续看好国产AI算力发展 [10] - 阿里与海光信息成立合资公司 共同建设11万颗算力芯片的大型集群 海光持股50% 合作从业务协同升级为资本绑定 [11] AI行业发展趋势与投资规模 - AI聊天机器人成为人类发展史上渗透率增速最快的功能之一 [12] - AI模型Token消耗量每2至3个月翻倍 需求快速扩张 [12] - 全球AI领域过去一年投资总额达4000亿美元 未来五年累计投入预计突破4万亿美元 [12] - 通用人工智能目标是将人类从80%重复性工作中解放 超级人工智能可催生超级科学家/工程师推动科技创新 [12] 海光芯片技术进展与应用 - 阿里云2025年Q2已采购海光深算三号DCU支撑通义千问API服务 原计划采购小几万张GPU卡 需求可能进一步增加 [13] - 海光GPU应用从私有云扩展至公有云 覆盖线上大模型一体机等场景 [13] - 海光BW 1000 GPU在FP64精度性能达30 TFLOPS 为国产芯片唯一达到该精度产品 对标英伟达H100 FP32性能60 TFLOPS FP16性能480 TOPS 配备64GB HBM2E显存 适用于超算、汽车碰撞模拟、材料研发等高精度计算场景 售价可能高于10万元 [13] - 海光发布HSL技术 通过异构卡调度提升生态友好度 重点优化CPU高速内存技术 对标英伟达Arm架构Grace CPU与GPU组合 [14] - HSL技术采用开源互联协议 实现跨厂商GPU兼容 解决内存一致性问题并提升CPU-GPU连接效率 推动生态开放 关键落地依赖互联网头部客户采纳 [15] 行业资源与生态 - 英伟达潜在供应商名单在知识星球发布 包含全面数据 [16] - 知识星球每日更新行业信息、投行数据及分析报告 并整理至网盘持续同步 [17] - 提供国产GPU卡资源 性价比高 需通过微信联系并备注姓名与行业 [19]
分析一下英伟达这1000亿的影响
傅里叶的猫· 2025-09-23 02:41
英伟达与OpenAI投资协议 - 英伟达计划通过部署10吉瓦AI数据中心方式向OpenAI投资1000亿美元 首阶段将于2026年下半年上线并使用Vera Rubin平台[1][3] - 投资形式为硬件基础设施部署而非直接现金注入 形成资金闭环循环机制[3][4] 英伟达战略动机 - 锁定OpenAI作为AI领军企业的芯片需求 防止其转向Google TPU或AMD MI系列等竞争对手产品[4] - 从芯片供应商转型为AI基础设施战略投资者 可能通过股权或回报机制分享OpenAI收益[8] - 构建"资金循环"模式:英伟达提供资金 OpenAI用于采购英伟达硬件 确保供应链主导权[4] AI芯片行业竞争格局 - 国际厂商芯片迭代速度激进 年均推出1-2款新产品 英伟达Blackwell B100/B200配置HBM3E 192-288GB内存[9][11] - AMD MI300X配置HBM3 192GB内存 MI325X升级至HBM3E 256GB 2025年MI350/355X将达HBM3E 288GB[11] - Google TPU v5p配置HBM2E 95GB内存 Ironwood(TPU v7)升级至HBM3E 192GB[11] - Amazon Trainium2配置HBM3 96GB内存 Trainium2 Ultra达HBM3E 96GB[11] - Meta MTIA 2配置LPDDR5 128GB内存 MTIA 3升级至HBM3E 216GB[11] 中国AI资本开支趋势 - 中国主要互联网与电信企业资本开支总额从2022年1130亿美元增长至2027E2390亿美元[14] - 字节跳动资本开支从2022年80亿美元增至2027E330亿美元 阿里巴巴从60亿美元增至180亿美元[14] - 腾讯从50亿美元增至140亿美元 华为从50亿美元增至120亿美元[14] - 预测阿里巴巴可能将3年3800亿投资计划扩展至5年1万亿(年均2000亿)字节跳动可能达年2500亿规模[14]
存储市场上行趋势
傅里叶的猫· 2025-09-22 15:35
存储器价格预期 - LPDDR5合约价涨幅上修至6-8% LPDDR4暴涨40-50% NAND Flash合约价涨幅预期升至15% 2026年第一季度传统淡季依然看涨 [4] - NAND和DDR均处于上行周期中 [5] - NAND价格在特定季度出现显著波动 例如某季度环比增长19% 另一季度增长13% 还有季度增长6% [6] 供给侧变化 - 海外原厂战略转向明确 持续退出部分产能 DDR4/LPDDR4产能因资源倾斜至DDR5/HBM等高端产品而缩减 [8] - DDR5/HBM产能利用率持续打满 新增产能在2025年底前有限 NAND产能利用率低于80% 无大规模扩产计划 供给弹性严重不足 [8] 需求端驱动因素 - 存储器下游需求中手机 PC 服务器占比超80% 服务器占比约30% [9] - AI应用从训练侧向推理侧/边缘侧扩散 驱动移动设备LPDDR5x 通用服务器DDR5 HBM及企业级SSD需求爆发式增长 [9] - 北美云厂商加大AI数据中心投入 存储池扩容与升级HDD→SSD 为企业级SSD及高性能DRAM带来持续需求增量 [10] 与2016-2018行情对比 - 相同点包括产品价格短期内飙升 原厂减产 暂停报价等操控手段 涨价节奏由三星 海力士 美光等巨头主导 [11] - 不同点在于需求驱动内核 本轮是AI应用从训练向推理与边缘侧延伸催生的结构性爆发性需求 不仅量增更追求存储性能带宽速度 直接拉动HBM 高性能DDR5 PCIe5.0/6.0 SSD等高端品类 AI服务器单机存储搭载量是传统服务器的3-5倍 [13] - 供给调整逻辑不同 本轮巨头战略性地将产能永久性转向技术壁垒和利润更高的HBM DDR5等产品 主动收缩并逐步淘汰DDR4/LPDDR4等旧制程产能 导致传统领域出现永久性供给缺口 [14] - 行情持续性根基不同 本轮由AI技术革命驱动 是十年维度的产业趋势 数据中心为应对HDD短缺交期拉长至52周以上而加速向SSD迁移 进一步巩固需求韧性 [15] Bernstein观点 - NAND短期涨价驱动因素是AI推理需求提升叠加HDD短缺2022年起HDD供应商资本支出保守交货周期长达1年 CSP转向企业级SSD替代带动NAND需求激增 供应商惜售买家提前囤货价格上涨从eSSD蔓延至消费级市场供应商报价涨幅10%-30%实际成交2025Q3-Q4环比涨中至高个位数 [18] - 2025年ASP预计小幅下降10% 2026年增长13% 但2026年四季度起价格将因新供应入市回落 需求若持续终将扩产设备订购到产能释放需6-9个月预计2025年底-2026年初启动资本支出2026年下半年新供应落地 [18] - 持续看好HBM和DRAM市场 2026年HBM位出货量同比增长53% 成本下降超预期高增长可消化竞争压力供应商均能实现增长 [19] - NVIDIA将HBM4速度要求从8Gbps提升至10-11Gbps 三星4nm基片+1cnm DRAM片 SK海力士12nm基片可满足需求美光因采用内部平面DRAM工艺基片难以达标 [19] - 三星施压SK海力士将HBM3E价格降20%但HBM4溢价支撑混合ASP持平 三星2026年HBM份额预计提升SK海力士美光仍能受益于市场扩张 [19]
周末谷歌OCS持续发酵
傅里叶的猫· 2025-09-21 12:05
这周三我们写过一篇OCS的详细分析,包括OCS的技术、发展、产业链上公司、以及OCS的价值拆 解。 谷歌OCS(光交换机)的技术、发展、合作商与价值量拆解 刚巧第二天市场上OCS题材的公司都异常火爆,即便是到了今天,大家对OCS讨论的热度依然很 高。这篇文章,我们结合一个调研纪要,从另外一些角度再来讲一下OCS。 其他大厂的OCS规划 按行业里的预估,接下来最早能跟谷歌一样规模采购 OCS 的,可能是英伟达和微软,因为这两家已 经找到了明确的适配场景,能把 OCS 的优势发挥出来。OCS 的核心优势很明确:高带宽、低时延、 低功耗,不同场景下能侧重不同的优势。 比如英伟达,他们从 Coherent 采购了基于 DLC 的硅基液晶 OCS 方案,专门用在数据中心的应急网 络互联上。具体怎么用?简单说就是在数据中心里加一层冗余的交换机设备,平时可能用不上,但 一旦有设备出故障,OCS 能通过重新配置网络拓扑,自动把坏的电交换机屏蔽掉,切换到备份交换 机上,保证整个数据中心的网络不宕机。对英伟达来说,用 OCS 的核心诉求是提高故障恢复能力, 这候 OCS 的 低时延优势反而不是最关键的,哪怕是秒级的切换速度,也能 ...
聊一聊空心光纤
傅里叶的猫· 2025-09-20 11:26
光缆市场概况 - 中国光缆市场总销量达2.7亿芯公里 芯公里为行业单位 指一公里光缆中所有纤芯长度总和 [5] - 需求主体为通信运营商 中国移动占据最大份额 高铁 公路 石油石化 煤矿等基础设施领域及系统集成商也贡献需求 [5] - 市场活跃得益于基础设施持续升级和扩容 "光进铜退"政策推进老旧线路替换 通信网络从24芯升级到432芯需求增加 数据流量快速增长推动新项目上马 [5] - 长飞光纤光缆公司2024年销售额120亿元 90%来自光纤业务 海外市场贡献35%收入 [5] 光纤技术演进 - G652B单模光纤市场占比超90% 价格持续下降至每芯公里20元 [6] - 厂商转向高端产品避免低价竞争 包括低损耗 大有效面积的G654E光纤和空芯光纤 [6] - G654E光纤自2015年推广 全球销量达200万芯公里 价格从最初十几倍降至普及水平 [6] - 空芯光纤代表更前沿技术方向 [6] 空芯光纤技术优势 - 核心中空 内部充满高纯度氩气 光模拟空气传播接近光速 [7] - 相比传统光纤传输损耗降低50% 速度提升50% 非线性问题减少1000倍 色散更低 信号更稳定 [7] - 高带宽 低延迟场景表现出色 支持400G 800G及未来1.6T 3.2T传输需求 [8] - 研发始于2016年英国南安普顿大学 2019年进入试点 2022年微软收购Lumenisity公司用于数据安全场景 [8] - 国内长飞光纤光缆公司全球领先 2024年6月与中国电信合作建成620公里传输线路 与中国移动在深圳到东莞建设800G实验网 [8] - 国内使用量约1000芯公里 市场快速扩展 [8] 应用场景与市场前景 - 适合AI数据中心 金融交易专线等对延迟和带宽要求极高场景 [8] - AI训练超算中心可提升10%至30%训练效率 节省时间和电费 [8] - 数据中心互联中几十公里中距离传输为强项 实验损耗低至0.05dB/km 商用环境0.08dB/km 远低于普通光纤0.14dB/km [8] - 海底光缆为潜力巨大应用场景 因对低延迟 高带宽和抗干扰能力要求高 [8] - 微软预测2025年全球产能约1万芯公里 2030年增至100万芯公里 [9] - 价格从10万元降至1万元时市场规模有望翻10倍达百亿级别 [9] - AI领域渗透率仅千分之一 若提升至1%市场空间极为可观 [9] 成本与技术挑战 - 2025年国内空芯光纤每芯公里价格3万到3.6万元 普通单模光纤仅20元 相差近2000倍 [10] - 30多公里线路使用空芯光纤总造价超600万元 普通光纤仅需十几万元 [10] - 生产工艺复杂 拉丝过程对玻璃管精度要求极高 充氩气时易影响传输效果 [10] - 熔接过程对湿度敏感 专用熔接机价格几十万元 检测断点误差较大 [10] - 行业标准尚未统一 国际电信联盟仅提供实验室规则 产业配套如熔接机 OTDR和收发模块价格居高不下 [10] - 单盘长度仅20-47.5公里 远低于普通光纤100公里 影响施工效率和成本 [10] 产业公司竞争力 - 长飞掌握PCVD VAD MCVD三大预制棒技术 生产灵活性强 良率高 废品率低 [11] - 产品衰减率从0.1dB/km降至0.05dB/km 远超行业标准 [11] - 2024年6月获得空芯反谐振技术国际专利 量产能力增强 已向广东移动 广东电信等客户供货 [11] - 全球能生产空芯光纤厂商屈指可数 日本古河使用上一代技术损耗控制较差 康宁仅停留实验室阶段未工业化 [11] - 长飞海外收入占比35% 产品单价高 未受美国单模光纤关税影响 [11]
光模块需求量和出货量
傅里叶的猫· 2025-09-18 11:15
华为昇腾芯片路线图 - 华为发布Ascend系列芯片路线图,涵盖2025年至2028年多款产品,包括Ascend 910C(2025 Q1)、Ascend 950PR(2026 Q1)、Ascend 950DT(2026 Q4)、Ascend 960(2027 Q4)和Ascend 970(2028 Q4)[3] - 芯片微架构从SIMD逐步升级至SIMD/SIMT混合架构,支持数据格式包括FP32、HF32、FP16、BF16、FP8、MXFP8、HiF8、MXFP4和HiF4[3] - 互联带宽从784 GB/s(Ascend 910C)提升至4 TB/s(Ascend 970),计算能力从800 TFLOPS FP16(Ascend 910C)提升至4 PFLOPS FP8和8 PFLOPS FP4(Ascend 970)[3] - 内存容量从128 GB(Ascend 910C)增至288 GB(Ascend 960和970),内存带宽从3.2 TB/s(Ascend 910C)提升至14.4 TB/s(Ascend 970)[3] 华为超节点产品 - Atlas 900超节点支持384颗Ascend 910C芯片,总算力达300 PFLOPS,已部署超300套CloudMatrix384服务实例[6] - Atlas 950超节点基于Ascend 950DT,支持8192张卡(为Atlas 900的20多倍),由160个机柜组成,占地1000平方米,FP8算力达8 EFLOPS,FP4算力达16 EFLOPS,互联带宽16 PB/s(超全球互联网峰值带宽10倍)[7] - Atlas 950超节点相比英伟达NVL144(2025下半年上市)卡规模为其56.8倍,总算力为其6.7倍,内存容量1152 TB为其15倍,互联带宽16.3 PB/s为其62倍[7][8] - Atlas 960超节点基于Ascend 960,支持15488张卡,由220个机柜组成,占地2200平方米,FP8算力30 EFLOPS,FP4算力60 EFLOPS,内存容量4460 TB,互联带宽34 PB/s,训练和推理性能较Atlas 950提升3倍和4倍[8] 光模块需求与市场 - 2024年全球光模块需求约800万只,英伟达需求超300万只,谷歌需求超200万只[12] - 2025年需求预计1800-2100万只,英伟达需求超500万只,谷歌需求约350万只,Meta需求250-300万只,AWS需求约300万只[12] - 2026年需求预计3000-3200万只,英伟达需求350-400万只,谷歌需求400-500万只,Meta需求约600万只,AWS需求约550万只[12] - 2026年800G光模块需求可能超预期,主因微软需求未被充分统计,实际需求或远超250万只[12] 1.6T光模块需求 - 2025年1.6T光模块需求主要来自英伟达,规模250-350万只(其中100万只给代工链),谷歌需求20-30万只,Meta和AWS需求可忽略[13] - 2026年1.6T光模块保守需求约860万只,英伟达需求至少500万只(其中100-150万只给代工链),谷歌需求约150万只,Meta和AWS需求各约80万只[14] 光模块产能与供需 - 头部三家厂商2026年产能合计3500-4000万只,产能利用率约80%,可生产数量约2800-3200万只[16] - 2026年800G+1.6T乐观需求近5000万只,存在1000-1500万只供需缺口[16] GPU与光模块配比 - 英伟达GPU与光模块配比为1:3至1:4.5,主要针对三层架构和800G光模块[17] - 谷歌配比约1:14,2026年需求较可观[17] - AWS当前配比1:4,自研ASIC后预计提升至1:8[17] - Meta实际配比1:12至1:14(含多规格光模块),自研ASIC后用量上升[17] 光模块供应商份额 - Meta供应商中菲尼萨份额30%-40%,新易盛份额20%-30%,旭创份额约20%[18] - 谷歌2025年供应商中旭创份额约70%,CloudLight份额约20%,菲尼萨份额约10%[18] - AWS供应商中新易盛份额60%-70%,菲尼萨份额约15%,旭创份额超20%,CloudLight份额5%-10%[18] - 微软供应商较杂,旭创份额20%-30%,新易盛份额10%-20%,菲尼萨份额10%-20%,设备厂商订单占比30%-40%[18] - 英伟达800G市场以旭创和菲尼萨为主,1.6T市场为旭创、菲尼萨和新易盛[18]
谷歌OCS(光交换机)的技术、发展、合作商与价值量拆解
傅里叶的猫· 2025-09-17 14:58
谷歌AI发展势头 - 谷歌推出Gemini 2.5 Flash Image 上线不到一个月新增2300万用户并生成超过5亿张图片 助力Gemini APP在多国应用商店登顶下载榜 [2] - 谷歌发布多项多模态大模型更新 包括Veo 3音视频同步生成 Genie 3实时交互世界 Imagen 4图片生成以及Pixel 10系列AI硬件整合 凸显AI研发领先优势 [2] - Gemini 3.0预计于2025年底推出 有望进一步提升模型能力 [2] 反垄断影响 - 美国地区法官公布谷歌搜索反垄断惩罚措施 强调恢复竞争而非惩罚 未采纳分拆等激进提议 好于市场此前悲观预期 [4] - 谷歌业务基本盘保持稳固 算法能力 生态优势和品牌口碑依然领先 流量获取成本TAC有望优化 整体影响可控 [4] OCS技术背景 - 传统Scale out网络中数据传输需要多次光电转换和电光转换 以H100千卡IB集群为例 数据从一台服务器传输到另一台通常需要经过8次转换 显著降低集群效率并增加延迟和能耗 [6] - 光信号在远距离高带宽传输场景下表现优于电信号 但现有技术无法直接对光信号进行灵活数据处理 必须先转化为电信号才能完成地址处理等操作 [8] - AI大模型数据流转具有高度可预测性 无需拆包查看地址 通过反射直接传输至目标服务器即可构建高效全光网络 相比传统互联网数据传输类似快递 AI数据中心全光网络更像地铁 [9] OCS主流技术方案 - MEMS方案是市场绝对主流占比超过70% 技术成熟参与企业多 性能指标均衡 端口扩展能力达320×320 成本较低切换速度快 [10] - MEMS通过微型反射镜角度调整实现光信号路径动态调整 每根输入光纤光信号经过MEMS反射镜引导到目标输出光纤 反射镜配备二维转轴通过调节角度改变反射方向 [10] - DRC方案采用全固态设计无运动部件 通过控制液晶分子结构变化实现光路折射 驱动电压极低可靠性和寿命明显提升 寿命达MEMS方案十倍 成本约4万美元低于MEMS方案5万美元 但切换速度仅毫秒级 [11][12] - 压电陶瓷方案目前没有详细信息阐述具体特点和优劣势 [13] OCS部署策略 - OCS技术核心优势场景是端口间映射关系稳定不需要频繁调整传输路径的网络环境 优先使用OCS可最大程度利用低功耗极低传输时延特性 [13] - 避免将OCS部署在需要高频率动态调整路径或有高度随机化流量模式的场景 这类场景会放大OCS切换时间长的问题导致网络整体效率下降 [13] - 通过合理规划网络拓扑结构提升OCS使用效率 如把高带宽需求且通信关系稳定节点集中到同一物理区域 通过OCS建立直接连接减少跨区域通信资源消耗 [13] 光交换机与传统电交换机差异 - 性能上光交换机通过直接提供稳定光通道传输数据时延极低接近光速 无需频繁进行光电转换 传统电交换机需多次光电转换并解包识别目标地址重新转发 大大增加数据传输时延 [14] - 功耗上光交换机不用进行信号转换能量损耗更少功耗优势明显 灵活性上传统电交换机更有优势 端口间全连接模式每个数据包能根据包头地址直接定位目标端口无需配置固定线路 仅需纳秒级数据处理时间 而光交换机重新配置内部固定线路适应流量变化目前切换时间毫秒级 [14] - 光交换技术更适合流量模式相对稳定端口间映射关系明确且不用频繁切换场景 传统电交换机更适合流量动态变化大需要频繁调整数据传输路径场景 [14] 成本与长期使用优势 - 长期使用下OCS交换机可实现约30%成本节约 因OCS寿命长如硅基液晶方案寿命约为MEMS方案十倍 MEMS方案寿命又长于传统电交换机 且无需频繁更换 同时单位端口能耗成本更低 [16] - OCS交换机初始成本较高当前设备单价通常在4-5万美元甚至更高 传统电交换机单价仅为几千至3万美元 对预算有限中小型数据中心初始投入压力较大 [16] - 时延方面OCS通过光通道直接传输数据时延可接近光速 相比传统电交换机时延提升约60%-70% 功耗上OCS相比传统电交换机可降低约40%功耗 [16] OCS端口数量问题 - 不同OCS技术方案端口数量存在限制 核心原因是技术实现难度和制造工艺水平差异 不同方案核心部件结构加工精度要求不同导致端口扩展天花板不一样 [17] - MEMS方案端口数量直接和光纤数量挂钩 每根光纤需对应一个微型反射镜 小镜子数量决定端口数量理论上限 [18] - 小镜子加工良率是关键限制因素 因MEMS芯片上小镜子需要极高加工精度 实际生产中难保证所有小镜子正常工作 例如谷歌某款MEMS芯片设计包含176个小镜子 但40个因加工不良被屏蔽 剩下136个中还有8个用于通道校准 最终实际有效端口数只有128个 [18] - 芯片尺寸与制造工艺矛盾也限制端口数量 增加芯片尺寸能容纳更多小镜子提升端口数 但随着芯片尺寸增大加工良率会明显下降 同时面临精度控制散热等技术挑战 [18] 光路系统关键部件 - 激光注入模块和摄像头模块核心目的是实现实时校准功能 不是直接参与数据传输 是保障光路长期稳定运行关键不是冗余设计 [19] - 校准系统用于调整MEMS小镜子偏转角度 确保光路始终处于预设精准状态 避免因设备老化导致光路偏移 [19] - MEMS小镜子偏转角度由焊盘上电压控制 随着设备使用时间增加机械转轴会出现老化磨损 导致偏转角度减小影响数据传输准确性 [19] - 激光注入模块发射专用波长光束对每个光路持续检测 摄像头模块捕捉光束实际传播路径判断是否存在偏移 一旦发现偏差系统自动调整控制电压使小镜子恢复到预设偏转角度 [19] - 校准过程依赖两套独立发射和接收单元 分别对应系统中两个MEMS芯片 实现对所有光路全面覆盖 [19] MEMS制造难点 - MEMS小镜子制造难点不是集中在镜面本身 而是体现在机械结构与电子控制集成环节 源于MEMS技术机电一体化核心属性 [20] - 每个MEMS芯片通常包含超过100个小镜子 每个小镜子不仅需要简单镀膜结构保证光反射效率 还必须集成复杂机械部件 最关键的是用于实现角度调整的小型转轴 尺寸极小在微米级别 对加工精度要求极高 [20] - 机械部件与电子控制芯片高度集成增加制造难度 小镜子角度调整依赖电子控制信号 需将机械转轴与电子控制电路在极小芯片空间内实现无缝衔接 既要保证机械结构灵活性又要确保电子信号稳定传输 [20] - 复杂集成结构导致加工良率较低 因涉及机械电子光学等多领域工艺要求 任何一个环节出现问题都会导致整个小镜子失效 例如谷歌某款MEMS芯片设计176个小镜子 最终因加工问题屏蔽40个 有效率不足80% [20] 发射和接收模组 - OCS中发射和接收模组是光路校准系统核心组成部分 主要涉及激光芯片探测器芯片无源光学器件等关键组件 用于保障校准激光信号稳定发射与精准接收 [22] - 有源组件包括激光芯片用于发射校准用激光束和探测器芯片用于接收校准激光束判断光路是否偏移 这两类芯片是模组核心功能部件 直接决定校准精度和稳定性 [22] - 无源光学器件包括滤光片过滤杂光确保校准激光纯度 准直透镜将激光束校准为平行光 棱镜改变激光传播方向 隔离器防止激光反射干扰保护激光芯片 这些器件用于优化激光束传输路径提升校准效率 [22] - 单套发射或接收模组总成本约1000美元 有源组件激光芯片加探测器芯片成本最高约占总成本60%-70% 无源光学器件成本约占15%-20%约150美元 其余成本为模组装配测试和封装费用约占10%-15% [23] 二色向分光片 - 二色向分光片是OCS光路校准系统中波长筛选关键部件 通过对特定波长光信号选择性透射或反射 实现校准光路与数据光路分离 确保校准功能精准运行 [24] - 核心功能是区分OCS系统中校准光信号和数据光信号 避免两者相互干扰 校准系统使用激光波长通常为850纳米 数据传输使用光信号波长通常为1310纳米 [24] - 二色向分光片通过特殊镀膜工艺实现对这两种波长选择性处理 对于850纳米校准光信号允许透射通过进入校准系统探测器芯片 对于1310纳米数据光信号则反射回数据传输路径阻止进入校准系统 [24] - 核心技术壁垒在于复杂镀膜工艺 需在镜片表面镀上多层不同材质不同厚度薄膜 每层薄膜对特定波长光信号产生干涉效应 实现850纳米透射1310纳米反射效果 镀膜工艺对薄膜材质纯度厚度均匀性层数控制要求极高 [25] - 二色向分光片还需具备高透光率对850纳米光信号透光率需达90%以上 高反射率对1310纳米光信号反射率需达95%以上 和长期稳定性镀膜层不易磨损氧化 [25] 微透镜阵列 - 微透镜阵列MLA是OCS设备刚需部件 核心功能是准直发散激光束 确保光信号在传输过程中稳定性 [26] - 光信号从光纤输出后会自然发散 若不进行准直会导致光信号衰减光路偏移影响传输效率和稳定性 MLA通过阵列化微型透镜将发散激光束校准为平行光 确保光信号在传输和反射过程中稳定性 [26] - 随着OCS设备出货量增长如谷歌每年部署1万台以上未来预计增长至10万台 MLA需求也将同步刚性增长 [27] - 国内厂商炬光科技是OCS领域MLA核心供应商之一 已进入部分头部OCS设备厂商供应链作为二级供应商二供提供MLA产品 部分OCS设备厂商如谷歌为保障供应链安全自行建立MLA生产线实现部分MLA自主供应 [27] - 单个MLA通道价格约1美元 一台OCS设备通常包含约270个通道 单台设备MLA成本约260美元占OCS设备总成本约6% 价格波动对OCS设备整体成本影响较小 [28] - 若按未来OCS设备出货量预测2030年可能达5-10万台长期有望达30万台 MLA市场规模将从当前数百万美元增长至数亿美元 随着OCS设备端口数量增加如从136×136扩展至300×300 每台设备所需MLA通道数量也将增加提升MLA单位设备价值量 [28] CPO与OCS区别 - CPO核心思路是把交换芯片和光模块封装在同一壳子里 光信号从芯片到光模块距离大大缩短时延和功耗降低 且能实时跟着数据流量变调整传输路径速度达纳秒级灵活性高 尤其适配英伟达GPU集群NVLink NVSwitch技术 [29] - OCS走全光路子靠MEMS反射镜或硅基液晶分子控制光信号路径 全程不用光电转换 时延接近光速功耗比电交换机低40% 但光路需提前配置调整路径速度仅毫秒级应对频繁变流量吃力灵活性差 [29] - CPO适合数据流向老变需要快速响应场景如AI大模型实时推理和云计算给不同租户分配资源 特别是英伟达GPU主导AI数据中心 [30] - OCS适合流量模式固定不用老调路径场景如大模型深度训练和数据中心上层网络冗余保护 像谷歌TPU集群特别适合用OCS既能满足低时延需求长期用还能省电 [30] 谷歌OCS模式 - 谷歌使用MEMS芯片采用自主设计加委托代工模式 芯片设计环节由谷歌自行完成 生产制造环节委托给瑞典专业代工厂Silex负责 [31] - 早期谷歌曾尝试从市场直接采购现成MEMS芯片 但因对端口数量切换速度可靠性等指标有定制化要求 市场通用产品无法满足其OCS系统适配需求 [31] - 谷歌决定组建团队自主设计MEMS芯片 从底层架构确保芯片与自身OCS设备TPU集群兼容性 同时优化芯片性能参数如提升小镜子角度控制精度降低驱动电压 [31]