CPO,过热了?
半导体行业观察·2025-12-25 01:32

文章核心观点 - 行业普遍认为共封装光学(CPO)是未来数据中心高速互联的终极技术方向之一,但其大规模商业应用的时间点被大幅推迟,短期内不会成为主流 [1][23][27] - 当前AI基础设施的竞争重心已从单纯堆叠算力转向互联与系统能力,但CPO并非解决当下瓶颈的迫切方案,可插拔光模块等现有技术路径仍有巨大演进潜力和生命力 [3][4][24] - 超大规模云厂商等客户对部署CPO态度谨慎,主要顾虑包括可维护性、系统设计复杂度、成本、供应链成熟度以及现有运维体系的惯性,CPO的部署窗口与客户的实际业务节奏存在错配 [18][20][22][26] AI基础设施瓶颈转向互联与系统能力 - AI集群规模正朝超大型化发展,博通透露其客户正在规划和部署规模超过10万颗GPU的集群,而行业内部讨论的目标已指向百万GPU级别 [3] - 随着模型参数与集群规模指数级扩张,AI集群的核心瓶颈从计算能力转向互联能力,通信效率、延迟、系统稳定协同成为决定算力能否有效利用的关键 [3] - 行业竞争重心从算力本身全面迈向互联与系统能力,关键词变为横向扩展、纵向扩展、跨域扩展以及功耗墙、链路可靠性、系统级协同设计等工程化概念 [4] 横向扩展领域:可插拔光模块仍将长期主导 - 博通首席执行官指出,未来5-7年可插拔光模块仍将占据主导地位,800G技术增长周期持续至2026年,1.6T产品预计增长至少持续到2029年,3.2T技术已完成展示 [7] - Lumentum预测2026年光端口总量将达到6000万-7000万个,同比增长接近翻倍,其中800G端口占55%-60%,1.6T端口占15%-20%,800G仍是绝对主流 [7] - Marvell指出,在传输距离较长、需要互操作的市场中,可插拔产品采用速度较慢,但其软件预认证带来的生态优势是核心护城河,客户从400G向800G的迁移“几乎是即时完成的” [8] - Arista表示在1.6T速率下仍有信心实现低功耗光模块的稳定运行,同时共封装铜缆等技术也在评估中,率先推出下一代速率产品并快速商业化是其核心策略 [8] 纵向扩展领域:CPO量产时间表大幅推迟 - 纵向扩展曾是CPO最有希望应用的“第一战场”,但量产时间表已被大幅推迟至2027-2028年及以后 [9] - Marvell收购Celestial AI后给出新营收目标:2027年底年化营收达5亿美元,2028年底翻倍至10亿美元,大规模商业部署相应推迟 [9] - Astera Labs预计CPO在纵向扩展领域的大规模部署将在2028-2029年实现,2027年将进行一些测试性部署 [9] - 推迟原因包括:CPO供应链仍较新,需要时间提升产能以支持大规模需求;纵向扩展场景的需求将是现有需求的数倍,需要整个行业共同努力扩大产能 [9] 功耗与可靠性是更现实的约束 - 客户不愿转向光学技术是因为其需要更高的功耗和成本,行业会优先通过机柜内铜缆和可插拔光模块实现纵向扩展,只有当它们都无法满足需求时,硅光子技术才会成为必然选择 [10] - Credo举例,xAI因铜缆解决方案绝对稳定可靠,提出构建“零中断”集群的需求,促使行业重点攻克GPU与第一级交换机之间链路的可靠性难题 [12] - 在巨头看来,互联技术首先要可靠可控、可预测、可诊断、可维护,这往往比追求极限性能更重要 [12] - Lumentum的ZeroFlap光学解决方案通过重新设计DSP实现带内通信和实时遥测,能识别潜在风险并主动干预,但其系统级能力目前仍主要用于基于激光的光模块,短距互联的可靠性上限依然掌握在铜缆/有源电缆组件手中 [13] 过渡方案持续蚕食CPO的叙事空间 - 线性驱动可插拔光模块、有源电缆组件、有源光缆等过渡方案正在分流原本被寄望于CPO的应用空间 [14] - Arista称800G速率的LPO光模块已实现大规模部署,由于无需数字信号处理器,为客户带来了更低的资本支出和功耗,运营支出也相应减少,并有信心在1.6T速率下实现LPO稳定运行 [15] - 有源电缆组件与有源光缆的逻辑是在2–30米的关键互联区间,提供接近铜缆的可靠性与接近光学的带宽 [15] - Credo强调其在有源电缆组件市场开创了先河,并拥有端到端掌控能力构成的竞争壁垒 [16] - Marvell的“黄金线缆计划”提供完整的参考设计,使其DSP能适配各类线缆,满足客户多源供应的需求 [17] - Credo指出,其在有源光缆中投入的微LED技术可直接应用于近封装光学,其功耗仅为CPO的1/3,且无需复杂交换机设计,当行业需要CPO替代方案时该路径更具优势 [17][25] CPO面临多重工程与商业挑战 - 可维护性突出:CPO技术核心目标是降低成本和功耗,但行业仍在解决可维护性问题;博通指出CPO三大缺陷:成本更贵、基于激光的可靠性远不如现有技术、功耗并非最低 [18] - 系统设计复杂:纵向扩展所需光互联是一种完全不同的技术类型,必须直接与千瓦级XPU和交换机共封装;光链路中连接器是关键组件,负责将光子集成电路的光输出耦合到光纤,目前限制了光学技术的规模化 [18] - 成本结构不确定:CPO不是便宜的光模块,而是昂贵的系统工程,散热、供电、测试、维修全部需要重构 [18] - 生态尚未形成:需要交换机、光学、封装、软件协同成熟,而客户机会成本高,没有时间去认证新的供应商,生态建立需要多年时间 [19] 超大规模云厂商态度谨慎的深层原因 - 可靠性要求极高:超大规模客户使用的AI系统包含大量组件,Credo认为以系统形式销售并对整个系统承担全部责任是合理的,而CPO一旦出现问题则是“整板级风险” [22] - 运维体系惯性巨大:所有超大规模云厂商都拥有自己的网络团队和已建立的完善流程;客户的认证周期很长,且当前最关注的首要因素是上市时间 [22] - 供应链安全优先:博通建设新加坡工厂内部化先进封装产能,旨在保障供应链安全和交付稳定性,而CPO技术的供应链成熟度远低于可插拔光模块 [22] - 架构灵活性需求强烈:在行业标准尚未最终确定时,客户不愿冒险将所有赌注押在某一种协议上,而可插拔架构提供了灵活性 [23] 行业技术路线与时间表预判 - CPO是互联体系的“最后一公里”技术,是终极解法之一,但非当前阶段最优解,其应用场景将收敛于极高端口密度、极端功耗约束等特定系统 [24] - 在相当长一段时间内,线性驱动可插拔光模块、有源电缆组件、有源光缆以及ZR光模块仍将承担数据中心互联主力角色 [24] - Arista明确表示线性驱动可插拔光模块的演进远未结束,有信心在1.6T速率下实现其稳定运行 [25] - 时间节点判断逐步收敛: - 2027年:CPO进入小规模测试与验证阶段 [31] - 2028年及以后:CPO在特定场景(主要是纵向扩展的高密度系统)中开始规模化部署 [26] - Lumentum预测到2027–2028年左右,首批采用CPO的客户中约有40%–50%的交换机将基于CPO技术,但存在较大不确定性 [26] - Astera Labs预计将在2028–2029年实现大规模部署,2027年更多是测试性部署 [26] - 行业真正需要的不是技术可行性证明,而是系统必要性证明,只有当现有过渡方案路径在功耗、密度、可靠性上同时触顶,CPO才会从未来选项转变为当下必需 [27]