光互连光交换
搜索文档
国内首个光互连光交换GPU超节点发布,将实现2000卡规模部署
观察者网· 2025-07-31 09:12
产品发布与核心架构 - 上海仪电、曦智科技、壁仞科技和中兴通讯联合发布国内首个光互连光交换GPU超节点——光跃LightSphere X [1] - 该超节点基于曦智科技全球首创的分布式光交换技术,采用硅光技术的光互连光交换芯片和壁仞科技自主原创架构的大算力通用GPU液冷模组,并搭载中兴通讯高性能AI国产服务器及仪电智算云平台软件 [1] - 产品构建了高带宽、低延迟、灵活可扩展的自主可控智算集群新范式,即将于上海仪电智算中心落地 [1] 技术路径与核心优势 - 超节点架构通过深度整合GPU资源,在节点内构建低延迟、高带宽的统一算力实体,是支撑算力集群迈入“万卡协同”时代的关键技术路径 [3] - 采用光互连技术,通过增加机柜数量构建超节点,突破传统互连方式下超节点的物理限制和单机柜功耗天花板 [3] - 光缆的远距离传输优势可实现交付与机柜解耦,核心价值在于:突破单机柜功耗束缚,支持万卡级弹性扩展,兼容现有机房设施降低部署成本,并可动态调整超节点规模 [3] - 全球首创的分布式光交换技术通过在每个GPU上集成光交换功能,灵活切换GPU间互连拓扑结构,提升了系统灵活度、可扩展性和性价比 [4] - 分布式光交换技术可实现故障场景下的拓扑实时重构,提高大模型训推性能,降低GPU冗余成本,并能按模型算力需求动态调整超节点规模和切换拓扑网络 [4] 硬件性能与设计 - 光跃LightSphere X将实现2千卡规模部署 [3][4] - 基于自主原创架构大算力通用GPU液冷模组,单卡算力达1P级,极大地增强了集群训推性能 [5] - 得益于多计算芯粒与CoWoS 2.5D封装协同设计的GPU模组,产品拥有强大算力 [5] - OCS UBB采用独创的革新载板设计,超低损板材多层架构,互联拓扑丰富灵活 [5] - 训推一体架构可动态分配计算资源,既满足千亿参数大模型训练的高吞吐需求,又保障推理任务的低时延响应 [5] 软件平台与系统管理 - 通过自主研发智算云平台软件灵活配置超节点网络拓扑,支持密集通信和更大TP&EP,高效适应各种大模型需求,大幅提高节点可扩展性 [5] - 智算集群统一管理平台深度融合调度引擎与训推框架,实现了对超节点全生命周期的智能管控 [5] - 平台能够依据不同模型特征,进行超节点拓扑智能配置,显著提升训练性能 [5] - 基于全局资源可观测体系,实现故障节点秒级替换与分钟级断点续训,保障模型长稳运行 [5] - 通过软硬协同的系统级工程优化,进一步释放了超节点在性能和效率等方面的综合潜能 [5] 生态构建与自主可控 - 产品聚焦构建全栈自主的智算生态,为中国算力基础设施筑牢根基 [7] - 硬件层开放兼容:光交换技术不依赖于特定的数据传输协议,可无缝兼容不同厂商使用的互连协议,消除生态锁闭风险 [7] - 突破核心器件与供应链瓶颈:分布式光交换芯片基于硅光技术,其设计与制造不依赖于先进半导体工艺节点 [7] - 全栈软件自主:自研统一管理平台实现从调度、容灾到优化的全链路管控 [7] - “开放协议+自主技术+自研软件”的协同体系,实现了从技术到生态的自主可控闭环 [8] - 产品依托上海仪电算力底座,集合国内智算领域头部企业,共建了“光芯片—GPU—服务器—算力集群—智算云平台”闭环,打造了开放共享的光电融合算力生态体系 [8] - 壁仞科技与曦智科技在光互连领域合作多年,从光直连技术到最新的光互连光交换OCS GPU超节点,双方已合作迭代了3代产品,并实现了大规模的商业化落地 [8] 战略意义与未来规划 - 光跃LightSphere X将作为新一代智算集群核心架构,支撑全栈自主可控的国产算力池建设,助力中国AI算力基础设施实现跨代发展 [8]
国内首个光互连光交换GPU超节点发布 即将落地上海仪电智算中心
上海证券报· 2025-07-29 12:23
产品发布与合作 - 上海仪电联合曦智科技、壁仞科技和中兴通讯正式发布国内首个光互连光交换GPU超节点光跃LightSphere X [1] - 超节点基于曦智科技分布式光交换技术 采用壁仞科技大算力通用GPU液冷模组与中兴通讯AI国产服务器 搭载仪电智算云平台软件 [1] - 产品即将于上海仪电智算中心落地 构建高带宽、低延迟、灵活可扩展的自主可控智算集群新范式 [1] 技术架构与创新 - 采用光互连技术突破传统互连方式物理限制 通过增加机柜数量构建超节点 [3] - 全球首创分布式光交换技术(dOCS) 提升超节点灵活度和系统可扩展性 实现系统性价比提升 [3] - 采用多计算芯粒与CoWoS 2.5D封装协同设计的GPU模组 具备强大算力 [3] - 智算集群统一管理平台深度融合调度引擎与训推框架 实现对超节点全生命周期的智能管控 [3] 产业生态与战略意义 - 构建"光芯片-GPU-服务器-算力集群-智算云平台"完整闭环 打造开放共享的光电融合算力生态体系 [4] - 作为新一代智算集群核心架构 支撑全栈自主可控国产算力池建设 [4] - 助力中国AI算力基础设施实现跨代发展 [4] 行业背景 - 万亿参数大模型与多模态训练推动算力集群迈入"万卡协同"时代 [3] - 超节点架构通过深度整合GPU资源构建低延迟高带宽统一算力实体 成为关键技术路径 [3]