傅里叶的猫

搜索文档
CoWoS的下一代是CoPoS还是CoWoP?
傅里叶的猫· 2025-07-28 15:18
CoWoS技术回顾 - CoWoS封装流程分为三个阶段:裸片与中介层通过微凸块连接并填充保护[7] 中介层与封装基板连接[7] 切割晶圆形成芯片并连结至封装基板[7] - 最终结构包含保护环形框、盖板及热介面金属填补空隙[7] CoPoS技术分析 - 用面板级RDL层替代硅中介层 实现Base Die的板级放置[9] - 面板尺寸达510×515毫米 面积利用率显著提升 可容纳芯片数量为300毫米晶圆的数倍[11] - 目标替代CoWoS-R/L系列 但大尺寸面板面临曝光工艺挑战[11] CoWoP技术解析 结构创新 - 直接去除封装基板 通过uBump和C4 Bump连接Base Die与PCB[12] - 7nm以下工艺中C4 Bump直接连接Die存在技术难度[12] 核心优势 - 节省封装基板成本 减少工艺层级 材料费用压缩显著[14] - 信号路径缩短 提升PCIe 6 0/HBM3等效带宽利用率 延迟降低[15] - 无封装盖设计优化散热 支持液冷/热管等新型热管理技术[15] 技术瓶颈 - PCB需超高可靠性与精密度 焊接容错空间极小[16] - 无壳体保护导致热循环/机械应力下易出现裂纹[16] - 要求芯片封装厂与PCB制造商从设计阶段深度协同[16] 技术发展评估 - CoWoP属于激进方案 短期难以对PCB行业产生实质影响[17] - CoPoS尚未完全成熟 但面板化中介层是明确发展方向[11]
Google Token使用量是ChatGPT的6倍?
傅里叶的猫· 2025-07-27 15:20
核心观点 - Google的token使用量是ChatGPT的6倍,但Gemini的DAU仅为ChatGPT的1/4至1/2 [1][3][4] - Google的token消耗主要来自搜索产品(如AI Overviews、Lens等),而非Gemini Chat,后者仅占整体token使用的5% [6][7] - 2025年Q1 Google的AI推理token使用量达634万亿,远超微软的100万亿,4月单月token使用量480万亿,同比增长50倍 [6] - 尽管用户规模差距大,Gemini与ChatGPT的单个用户token消耗量相近(月均56,000 token/MAU) [7][8] - AI推理成本占Google搜索收入比例较低(1.4%),对利润率影响有限 [8] 用户数据对比 - ChatGPT的MAU为8亿+,Gemini为4亿+,DAU比例从1:2(Barclays)到1:4(semianalysis)不等 [4][6] - 用户活跃比率(DAU/MAU和WAU/MAU)均为0.1和0.6,两者持平 [6] - 在chat app统计中,ChatGPT DAU达1.6亿(占49%用户份额),Gemini DAU未披露具体数值但占11%用户份额 [6] 业务驱动因素 - Google搜索业务的新功能(AI Overviews、Circle to Search等)和Workspace产品深度集成Gemini模型是token激增主因 [6][7] - 2025年Q1 Google处理推理token的成本为7.49亿美元,占非TAC运营支出的1.63% [8] - 传统搜索运营成本占营收18%,AI成本占比1.4%,成本结构差异显著 [8] 基础设施需求 - 2025年Q1 Google需要约27万颗TPU v6芯片支撑token处理,季度新增芯片支出6亿美元 [8] - 预计Q2芯片支出将增长至16亿美元,AI推理成为基础设施建设的核心驱动力 [8] 行业动态 - 英伟达B系列服务器在国内开放样品订单 [10] - 行业信息交流平台提供每日更新的投行数据和分析报告 [12]
聊一聊CPO(二)--CPO产业链的主要参与者
傅里叶的猫· 2025-07-25 08:24
CPO产业链参与者分析 传统光收发器供应链 - 传统供应链由外延片、光学组件、DSP供应商及模块制造商构成,主导企业包括Coherent、Lumentum、博通等垂直整合供应商,以及中际旭创、天孚通信等中国模块厂商 [2] - 关键组件供应商:外延片(VPEC、LandMark、IQE)、光纤(Corning)、光学芯片(Coherent、Lumentum、博通)、DSP(Marvell、Airoha)、模块制造商(英特尔、思科、Sumitomo等) [3] CPO生态系统差异 - CPO技术使硅半导体供应链从光学行业获取部分价值,并需升级关键组件如光纤阵列单元(FAU)和制造设备 [2] - CPO价值链新增环节包括FAU(FOCI、Browave)、组装/封装/测试(ASE/SPIL、Amkor)、光引擎(博通、Marvell)、交换机ASIC(英伟达、联发科)等 [4] 晶圆代工厂的核心角色 台积电 - COUPE平台可能成为CPO解决方案的主要切入点,采用chiplet设计整合光子集成电路(PIC)与电子集成电路(EIC),通过N65平台生产PIC [5] - 为博通、英伟达供应CPO收发器,并与Marvell、联发科、AMD等合作推动商业化 [8] 其他晶圆代工厂 - 英特尔:专注AI光I/O领域,与LandMark合作超10年,2023年出售可插拔光收发器部门 [8] - 格罗方德:推出GF Fotonix平台,与英伟达、博通等合作 [9] - 高塔半导体:提供300mm硅光子平台,研发3.2T收发器,合作伙伴包括Coherent、中际旭创 [9] 关键组件与设备 光纤阵列单元(FAU) - FOCI的ReLFACon技术可能集成到台积电COUPE平台,耐高温特性适配光引擎需求,2023年起主导第一代CPO的FAU技术 [10] 封装与测试 - 日月光/矽品可能负责FAU与光引擎的集成及交换机基板封装 [11] - 讯芯为博通提供组件组装支持,FIT合作博通生产外部激光源(ELS) [13] 设备制造商 - BESI:台积电混合键合设备独家供应商,2025年需求预计20台,2026年超30台 [14] - ASMPT:光学互联解决方案提供商,MEGA键合机用于光模块组件对准 [14] - 致茂电子:2026年半导体业务或增长25%,受益于CPO测试设备出货 [15] 行业动态 - 英伟达B系列服务器样品订单开放,国内可获取 [17]
聊一聊CPO(一)
傅里叶的猫· 2025-07-24 15:13
光纤替代铜缆趋势 - 光纤在数据中心网络领域逐步取代铜缆,主要优势包括更高带宽、更快传输速度、更远传输距离、更强可靠性和更优空间效率 [2][3] - 光纤传输速度约为光速的三分之二,单模光纤传输距离可达100公里,而铜缆在高速传输时通常不足10米 [3] - 数据中心网络中光纤占比已达60%,且比例持续上升,服务器机架外部互联已升级为光纤,机架内部仍采用铜缆 [5][7] - 光纤使用寿命(30-50年)远长于铜缆(5年),但短期内铜缆在AI服务器机架内部传输和传统数据中心短距离通信中仍是主流 [4] 硅光子技术 - 硅光子技术通过将分立光子组件集成到单个SOI晶圆衬底上,形成光子集成电路,与CMOS制造工艺兼容 [9] - 相比传统光学解决方案,硅光子技术提供更高带宽和更低功耗,结构紧凑且集成度更高 [9] - 传统光纤需与波导、激光源、光电二极管等分立组件组装,生产规模小阻碍技术迭代和成本降低 [8] CPO技术优势 - CPO将光引擎直接集成到交换机ASIC/xPU封装或AI加速器中,缩短电信号路径,提升能效和带宽密度 [11] - CPO相比传统光模块减少信号损耗和延迟,路径从数十厘米缩短到几毫米,能耗降低多达70% [15] - CPO外形更紧凑,节省高密度PCB成本,突破可插拔收发器的空间限制,提供更好扩展性 [15] - LPO是不含DSP的可插拔收发器,功耗低于传统光收发器,但在扩展性上仍存在局限 [16] CPO核心组件 - 光引擎是CPO核心,由光子集成电路和电子集成电路组成,通过混合键合技术制造 [19] - 光子集成电路集成波导、调制器、光电二极管等组件,可能由硅、硅锗等多种材料组合制成 [21] - 光纤阵列单元实现光纤电缆与交换机基板连接,需承受260摄氏度高温,友达光电计划向台积电供应相关技术 [22] - 激光源设计主要有片上激光和外部激光两种,外部激光源因更易更换和更好热管理被认为是更可行选择 [23][24] CPO量产挑战 - 封装工艺复杂,需先进封装技术如混合键合或2.5D/3D封装,以及精密光学耦合和严格测试流程 [28] - 硅兼容性问题,基于硅的光子集成电路需在性能上实现足够突破 [28] - 耐久性与热管理要求高,组件需承受高温并保持稳定性能 [28] - 可靠性问题,单个光引擎失效可能导致整个封装报废,封装前测试至关重要 [28] CPO应用前景 - 交换机有望在2027-2028年向支持3.2T及以上速率的CPO技术迁移,拐点可能出现在AI数据中心升级至每端口3.2T阶段 [30] - 博通推出TH5 Bailly CPO解决方案,将8个6.4T光引擎集成到Tomahawk 5 ASIC芯片上,总处理带宽达51.2T/s [31][32] - 英伟达推出Quantum-X InfiniBand CPO解决方案,将18个1.6T光引擎集成到Quantum-X800 ASIC芯片中,总处理带宽达115.2T [35] - xPU向CPO转型可能稍晚于交换机,预计在2028-2030年,但长期出货量可能远超交换机 [40]
国内AI芯片的出货量、供需关系
傅里叶的猫· 2025-07-21 15:42
中国AI芯片市场概况 - 2025年中国AI加速器市场规模预计达到395亿美元 其中Nvidia H20占229亿美元 AMD MI308占20亿美元 本土厂商(华为Ascend 寒武纪 海光)合计146亿美元 [2] - H20禁令导致Nvidia损失16.8亿美元 AMD损失1.5亿美元 部分订单转移至本土厂商使其收入增加约10% 但由于7nm晶圆和CoWoS技术瓶颈 仍存在126亿美元供应缺口 [2] - Nvidia计划恢复H20销售 预计2025Q3中期恢复生产 需求达105亿美元 但无法满足168亿美元初期需求 部分需求将推迟至2026年 [2] 主要厂商市场份额 - 华为在国内AI芯片市场遥遥领先 占有率23% 其次是寒武纪 海光和平头哥 [16][20][21] - 互联网云服务提供商是主要买家 字节跳动 腾讯 阿里巴巴和百度占H20总销量的87% [3][5] - 至2027年 本土厂商市场份额预计将达55% 全球厂商将面临技术停滞 [3] 产品性能对比 - B30芯片相比H20性能大幅降低 FP16 TFLOPS降低54% FP8 TFLOPS降低68% 内存容量降低68% 带宽降低40% [4] - Nvidia计划向中国运送40万颗B30芯片 预计带来28亿美元收入 本土厂商额外收益约15亿美元 [3] 国产GPU厂商发展 - 沐曦营收连年递增 即将上市 [29][31] - 摩尔线程产品线覆盖AI服务器GPU 专业图形加速和桌面GPU 2024年AI计算GPU出货大幅提升营收 [35][36][37] - 华为CloudMatrix 384已在华为云运行 显示其技术实力 [20] 数据差异说明 - Bernstein和IDC数据存在较大差异 除华为和英伟达外 其他厂商排名和份额差异显著 [16] - 运营商主要采购华为AI芯片 其他国产GPU厂商未进入采购名单 [24]
NPU还是GPGPU?
傅里叶的猫· 2025-07-20 14:40
半导体架构演进 - NVIDIA GPU发展呈现明显周期:从早期图形渲染固定流水线DSA架构→统一Shader架构和SIMT抽象→AI时代引入Tensor Core重回DSA化,通过CUDA生态维持行业地位 [1] - 国内Ascend采用系统级统一设计:针对异构架构生态碎片化问题,提出同构ISA和混合执行模型,设计统一总线(UB)实现CPU/GPU/NPU编程统一和高效互连 [1] - SIMT与SIMD架构差异:SIMT编程灵活性高适合稀疏数据和复杂控制流,SIMD硬件效率优适合密集型向量运算,关键在于软硬件交付界面设计 [2] NPU技术特性 - NPU专为AI计算设计:在能效比和计算速度上优于CPU/GPU,适合移动设备、边缘计算和嵌入式AI,近年也应用于大模型训练推理 [3] - NPU硬件优势:指令架构简单(可嵌入ARM/RISC-V扩展指令集)、功耗低、内存使用模式单一,成为应对芯片出口管制的可行方案 [3] - 设计复杂度对比:CPU复杂度为1时,图形GPU为0.3-0.4,NPU不足0.1,核心是矩阵乘法和卷积运算的堆料设计 [4] NPU现存挑战 - 软件复杂度远超硬件:国产GPU卡因软件体验差导致数据中心利用率低下,高端算力紧缺与低端算力过剩并存 [5] - 内存架构缺陷:L1缓存有限且存在存储体冲突,缺乏SIMT的延迟隐藏机制,访存延迟直接暴露易造成计算核心空转 [5] - 生态碎片化:不同厂商NPU架构差异大,软件移植成本高,尚未经历GPU行业的标准化收敛过程 [5] GPU与NPU架构对比 - 历史演变相似性:早期显卡与当前NPU均为CPU远程控制的专用计算器,GPU通过集成独立控制单元实现功能进化 [6] - 控制层级差异:GPU采用"CPU→GPU→张量核心"三级控制链,NPU仅为"CPU→NPU"二级结构,缺乏自主控制能力 [7] - 英伟达关键突破:SIMT编程模型降低并行计算门槛,而NPU仍依赖外部CPU调度,难以适应大模型训练的实时策略调整 [7] 行业发展趋势 - AI任务复杂度提升:从单一推理向"训练+推理"全流程演进,驱动芯片架构向"高效计算+灵活控制"方向发展 [7] - 技术融合路径:国产NPU需引入SIMT前端并强化控制单元向GPU靠拢,同时GPU内部模块需DSA化 [7] - 英伟达算力宣传策略:H100的FP16算力989.4万亿次通过2:4稀疏度计算被宣传为1979.8万亿次,与实际密集运算指标存在差异 [4]
被抛弃的NVL72光互联方案
傅里叶的猫· 2025-07-17 15:41
GB200服务器硬件架构与互联技术分析 核心观点 - GB200服务器采用铜缆与光缆混合互联方案,其中加速器互连(NVLink)全面转向铜缆以降低成本,而后端网络长距离连接仍依赖光纤 [13][16] - NVL36x2成为主流配置,推动有源铜缆需求激增,光学收发器厂商增量有限 [19] - 前端网络存在配置过剩现象,客户可通过降低带宽节省单系统3.5k美元成本 [2] 前端网络 - 功能定位:承担与外部互联网、集群管理工具及存储系统的数据交互,采用常规以太网协议 [1] - 带宽配置:HGX H100单GPU带宽25-50Gb/s,GB200参考设计达200Gb/s(实际需求仅50Gb/s),总带宽200-800Gb/s [2] - 客户差异:超大规模企业采用自定义NIC方案,仅甲骨文使用Bluefield-3实现网络虚拟化 [4] 后端网络 - 技术迭代:初期沿用ConnectX-7网卡(400G),2025Q2将升级至ConnectX-8(800G)搭配Quantum-X800交换机 [6][12] - 材料选择:机架间长距离(>4米)必须使用光纤,铜缆仅适用于短距连接 [6] - 成本对比:Nvidia高端Infiniband交换机成本显著高于Broadcom Tomahawk系列以太网方案 [7] 加速器互连(NVLink) - 拓扑革新:NVL72采用1层扁平拓扑(72GPU),NVL36x2分组设计(2x36GPU),NVL576采用2层胖树结构(576GPU) [15] - 铜缆优势:相比光学方案节省单机架220万美元成本,降低19.4kW功耗,5184根铜缆实现900GB/s单向带宽 [16] - 连接技术:采用Amphenol Paladin HD 224G/s连接器与SkewClear EXD Gen 2电缆,解决信号干扰问题 [17][18] 带外管理网络 - 功能特性:独立运维网络,用于OS重装和硬件状态监控,数据量极小 [20] - 成本控制:采用RJ45铜缆连接,单根成本<1美元,无需光学组件 [21] MPO光纤连接器价值分析 - 400G方案:单GPU对应MPO价值量128美元(两层架构)至192美元(三层架构) [24] - 800G升级:采用16/24芯MPO后,单GPU价值量提升至256-381美元,1.6T方案需32/48芯MPO [25][29] - 规模测算:73728个GPU的三层架构下,MPO总芯数达702万,单GPU价值381美元 [30]
各方关于H20的观点
傅里叶的猫· 2025-07-16 15:04
H20芯片库存与生产情况 - 大摩预计H20芯片库存可达100万片 其中成品芯片库存约70万个 需采购1万片CoWoS-S晶圆进行封装 KYEC可能额外提供20-30万个芯片 [1][2] - JP Morgan预测H20初期季度需求高达100万个 主要受中国AI推理需求驱动且无替代产品 库存可能在一个季度内消耗完毕 [3][4] - 瑞银估算H20销售额将达130亿美元 按每台1.2万美元均价计算对应销量略超100万台 销量恢复比例或达15%-20% [5][6] - Jefferies推测现有H20库存约55-60万个 基于150亿美元收入损失推算 后续将推出采用GDDR6内存的降级版本 [7] 市场需求与行业动态 - JP Morgan指出H20需求旺盛源于中国AI推理市场及客户提前下单行为 与2025年Q2 Deepseek R1的60万需求形成对比 [3] - 瑞银提到中国市场占英伟达数据中心销售额百分之十几 H20出口放宽将支撑下半年业绩 GB200产能提升及GB300量产将推动增长 [5] - Jefferies透露美国可能重新引入数据传输速度限制 HBM3内存的H20将停产 转向GDDR6版本 [7] 行业信息与资源 - 英伟达B系列服务器已在国内开放样品订单 接受行业客户咨询 [8] - 行业研究平台持续更新投行数据及关键信息 提供网盘资源整合服务 [10]
H20恢复供应,市场如何
傅里叶的猫· 2025-07-15 14:36
H20供应情况 - H20当前供应来源为库存而非新生产 库存数量存在两种说法 30w~40w片或60w~100w片 供应量有限[1] - 中国企业正积极抢购H20 大公司已提交大量采购申请 具体数字未披露[1] H20技术规格与市场需求 - H20通过"点断"技术实现硬件降规 从H200/H800改回H200成本过高被放弃[2] - Hopper系列(H200为主)国内需求疲软 近期价格大幅下跌 市场等待B200/B300服务器[2] H20未来生产计划 - H20库存售罄后大概率停产 英伟达重心转向Blackwell架构产品[3] - Hopper系列仅靠库存维持短期供应[3] 采购建议 - 潜在买家需尽快行动 避免后期供应短缺[4] 行业动态 - 英伟达B系列服务器已可接受国内样品订单[5]
二季度财报前聊聊台积电
傅里叶的猫· 2025-07-14 15:43
台积电美国投资与关税影响 - 台积电在美国投资1650亿美元用于产能建设 可能增加获得关税豁免的机会 [1] - 潜在关税可能抑制电子产品需求并减少公司收入 [1] - 未来五年海外工厂利润率侵蚀可能从2-3个百分点上升至3-4个百分点 [1] - 若进口设备和化学品获得关税豁免 长期利润率可保持在53%以上 [1] 晶圆定价策略 - 汇率走势呈现结构性特征 预计2026年晶圆定价策略将考虑汇率影响 [2] - 因先进制程需求旺盛 预计全球美元计价晶圆价格提高3%-5% [2] - 美国客户以更高报价锁定4nm产能 美国工厂晶圆价格至少提高10% [2] 2纳米制程发展 - 计划2025年下半年启动2纳米大规模生产 [5] - 预计2024年N2产能建设为10kwpm 2025年40-50kwpm 2026年底达90kwpm [5] - 苹果将成为首批客户 2025年第四季度采用SoIC 3D封装技术 [5] - AMD和英特尔有望2026年上半年加入N2客户名单 [5] - 英特尔可能将"Nova Lake"高端CPU芯片交由台积电2纳米工艺生产 [5] - 联发科和高通旗舰智能手机芯片2026年与苹果iPhone一同采用2纳米工艺 [5] - 2025年下半年加密货币需求将消耗少量2纳米产能 [6] - 2026年底AI ASIC将开始使用2纳米产能 2027年使用量进一步增加 [6] Blackwell芯片与AI半导体业务 - 2025年NVL72服务器机架出货量预计3万台 [10] - 台积电2025年为Blackwell芯片规划39万块CoWoS-L产能 [10] - 中国版B30 GPU设计可能与RTX PRO 6000相近 出货量已达50万台 [12] - 云AI半导体业务对台积电收入贡献占比:2024年13% 2025年25% 2027年34% [12] - B30若正常销售到中国 将占2026年台积电20%营收增长 [12] B30订单情况 - 互联网A下单十几万张B30 每张7000美元 对应70亿 预计8月到货 [13] - 互联网B预计Q3资本开支上升 主要与采购B30相关 预计下单30万张 9月到货 [13]