光互连

搜索文档
AI算力集群迈进“万卡”时代 超节点为什么火了?
第一财经· 2025-07-30 10:24
超节点技术成为AI算力集群核心解决方案 - 超节点技术通过整合算力芯片资源构建低延迟高带宽算力实体 显著提升算力利用效率 支撑千亿至万亿参数模型训练[1] - 技术能避免芯片空闲 在单颗芯片制程受限时仍可提升集群性能 国内厂商已将其作为明显发展趋势[1][4] - 华为展出昇腾384超节点实现384个NPU大带宽低时延互连 上海仪电联合曦智科技等发布光跃LightSphere X超节点 新华三推出H3C UniPoD S80000超节点[1] 超节点技术兴起的驱动因素 - 大模型参数量迈向万亿级 算力集群从千卡扩展到万卡/十万卡规模 需解决大规模芯片协同问题[2] - 传统AI服务器横向拓展存在算力性能损失 超节点能保证单个节点内性能最优 解决"1+1<2"的算力损耗问题[3] - 光互连技术成为主流方向 光互连光交换可实现纳秒级切换 提供高带宽低延迟通信 曦智科技光交换芯片与壁仞科技GPU液冷模组已投入应用[4] 超节点技术的实施路径与优势 - 采用scale out横向拓展与scale up纵向拓展双路线 纵向拓展可在单节点内集成多GPU(如64卡/节点)实现一致通讯带宽[3] - 万卡集群需具备多重容错能力 包括秒级容错和分钟级故障恢复 同时需要调度能力实现并行计算分布[2] - 国内通过超节点方案以量补质 弥补国产AI芯片制程差距 光芯片可不依赖高制程[5] 国产AI芯片的差异化竞争策略 - 外购芯片市场份额从去年63%降至今年预计49% 国产芯片占比提升[6] - 墨芯人工智能聚焦AI推理场景 采用稀疏计算技术 12nm制程即可满足需求 针对边缘计算优化功耗[6][7] - 云天励飞聚焦边缘计算与云端大模型推理 后摩智能定位端边场景 存算一体技术实现160TOPS算力 避开与巨头直接竞争[8] 技术路线与生态建设现状 - 英伟达采用封闭生态 国内厂商推进开放技术体系 各厂商超节点路线存在差异 光通信技术全球领先无明显代差[5] - 新华三超节点基于以太协议和PCIe协议 适用多种算力芯片 华为通过总线技术实现NPU互连[4] - 万亿参数模型训练需超1万张GPU 每个超节点包含几十张GPU 需配置冗余容错机制[2]
AI算力集群迈进“万卡”时代,超节点为什么火了?
第一财经· 2025-07-30 07:59
超节点技术布局与趋势 - 华为、中兴通讯、新华三、超聚变等国内厂商在WAIC上集中展示超节点方案 超节点技术成为行业热点 [1][3] - 超节点通过整合算力芯片资源构建低延迟高带宽算力实体 提升集群算力利用效率 支撑千亿至万亿参数模型训练和推理 [3] - 英伟达较早布局超节点技术 其GB300 NVLink72方案可整合72个GPU和36个CPU到单一平台 [4] 超节点技术原理与价值 - 解决万卡集群时代芯片协同问题 通过scale up纵向拓展实现单节点内多GPU协同 避免传统横向拓展导致的算力性能损失 [5] - 在单颗芯片制程受限背景下 超节点成为提升集群性能的重要路径 国内厂商可通过大规模集群部署弥补单点性能不足 [9] - 光互连技术成为主流方向 光互连光交换方案实现纳秒级切换 保证高带宽低延迟通信 曦智科技、壁仞科技等厂商已推出相关方案 [6] 国产芯片市场竞争策略 - 国产AI芯片在服务器中占比提升 外购芯片份额从去年63%预计降至今年49% 英伟达仍计划推出针对中国市场的全新GPU [10] - 部分厂商采取差异化竞争策略:墨芯人工智能聚焦推理场景优化 云天励飞专注边缘计算和云端推理 后摩智能定位端边场景存算一体技术 [10][11][12] - 避开与海外巨头直接竞争 通过垂直行业定制化方案(如稀疏计算、边缘设备)实现特定场景下的性能优势 [11][13] 技术发展驱动因素 - 大模型参数量迈向万亿级 需1万张以上GPU构建具备容错能力的训练集群 推动超节点技术需求 [4] - 摩尔定律面临失效风险 芯片制程提升难度增大 促使行业通过集群互连技术突破算力瓶颈 [9] - 国内光通信技术全球领先 与海外先进水平无代差 为光互连方案提供技术基础 [9]
初创公司,创新光互连
半导体行业观察· 2025-04-27 01:26
数据中心光互连技术趋势 - 人工智能数据中心面临铜互连在空间和带宽上的限制,行业正转向更大尺寸、更多处理器的芯片,推动更密集、更长距离的光纤连接替代铜线[2][5] - 共封装光学器件(CPO)成为提升能源效率的关键技术,英伟达已量产集成光子调制器的网络交换机,将光子技术引入机架内部[2][5] - 初创公司挑战传统观点,将光学互连直接连接至GPU和内存封装,解决一米链路内铜缆带宽不足的问题[5][6] 初创公司光互连创新 - Ayar Labs推出业界首个GPU间光学互连方案,采用UCIe接口和波分复用技术,实现256通道、8 Tbps总带宽,支持2公里通信距离[4][8] - LightMatter的Passage系列产品通过3D堆叠技术集成光学电路,L200为模块化设计,M1000则实现完全集成的光学中介层,直接连接GPU与内存[8] - Xscape Photonics集成频率梳激光器至芯片,解决"逃逸带宽"问题,其ChromX平台获4400万美元融资加速量产[8] 技术路径与竞争 - 微环谐振器和多波长激光器成为主流方案,但面临成本与灵活性挑战,例如512个GPU集群需超3万个连接,多波长可能降低粒度[10] - Avicena采用MicroLED成像光纤技术,以300个MicroLED实现3 Tbps传输,无激光器设计降低5倍能耗,被看好为未来技术方向[11] - 行业分歧明显:LightCounting预测CPO将先限于交换机,GPU集成或需至2030年,而Sindhu强调解决GPU互连是"时代最重要的封装难题"[11] 商业化进展 - 曦智科技推出全球首款片上光网络处理器Hummingbird,通过光子-电子垂直堆叠封装实现全对全数据广播网络,显著降低延迟与功耗[5] - 英伟达CPO交换机量产引发行业震动,但初创公司正推动光学技术更靠近数据源,从芯片封装层面直接传输带宽[2][5]