行业投资评级 - 报告未明确提供行业投资评级 [1] 核心观点 - 人工智能技术迅猛发展推动全球算力需求指数级增长 需要算力调度实现跨地域 跨平台的资源整合与优化 [2] - 中国算力规模快速增长 2024年总规模达280EFLOPS 智能算力占比32% 数据生产总量达41.06ZB 同比增长25% [20][23][25] - 算力调度平台通过基础设施层 管理编排层 服务运营层和算力应用层四层架构 实现算力资源的高效整合与智能调度 [40][41] - 异构算力调度面临资源异构性 软件环境碎片化 跨架构迁移成本高 缺乏统一标准等核心挑战 [4][43][44][45][46] - 国内算力调度平台形成国家级 省级/跨省级 市级三级体系 运营商主导平台侧重跨区域资源整合 科技企业主导平台聚焦垂直领域 [5][48][49][50] - 开源算力调度技术平台中 openFuyao在国产化适配支持上具有优势 Kubernetes和Slurm分别在云原生和HPC领域有深厚积累 [6][52] 算力调度行业综述 算力定义与分类 - 算力指计算机设备或数据中心处理信息的能力 狭义以FLOPS衡量 广义包括数据存储 网络传输 任务调度等能力 [15][17] - 算力分为通用算力(基于CPU 适用云计算 边缘计算) 智能算力(基于GPU/FPGA/ASIC 专为AI任务设计) 超算算力(基于超级计算机 解决复杂工程问题) [18][19] 算力规模与数据生产 - 中国算力总规模从2020年135EFLOPS增长至2024年280EFLOPS 智能算力占比从20.7%提升至32% [20][21][23] - 2024年中国数据生产总量达41.06ZB 同比增长25% 增速较2023年提高2.56个百分点 智能应用推动数据量增长40.95% [25][26] 算力网络与算网融合 - 算力网络是以算为中心 网为根基的新型信息基础设施 实现算力按需分配和灵活调度 [27][28] - 算网融合是计算与网络资源在硬件 软件 平台 应用等多层面的深度整合 追求算力即插即用和网络按需适配 [27][29] - 中国移动算网融合架构分为基础设施层(物理底座) 编排管理层(调度中枢) 运营服务层(能力平台)三层 [30][31] 异构算力定义与分类 - 异构算力通过结合CPU GPU FPGA ASIC等不同架构处理器 提升整体计算性能 能效比和灵活性 [33][36] - 处理器按架构分为CPU(灵活性高) GPU(并行能力强) FPGA(可编程) DSA(特定领域性能高) ASIC(性能最优但无灵活性) [34][36] 算力调度平台与异构计算调度系统 - 算力调度平台面向多类型计算资源 解决宏观资源分配问题 异构计算调度系统针对异构硬件架构 解决微观任务优化问题 [37][39] - 两者关系为异构计算调度系统构建于算力调度平台的基础能力之上 实现硬件抽象 资源池化 细粒度调度等核心扩展能力 [38] 算力调度平台架构与技术 - 算力调度平台技术架构分为基础设施层(整合计算 存储 网络资源) 管理编排层(统一管控 智能调度) 服务运营层(算力交易与服务运营) 算力应用层(多行业场景) [40][41] - 关键技术包括算力感知(实时监测资源状态) 算力度量(量化评估异构资源) 算力路由(任务流量路由至最优节点) 算网编排(计算与网络资源统一编排) 算力交易(智能公平交易) [41] 异构算力调度挑战 - 资源异构性与软件环境差异增加调度复杂性 任务代码需适配目标硬件编程接口 [43] - 跨架构任务迁移需重写代码或调整算法 受限于不同硬件内存管理机制和专用开发工具链 [44] - 缺乏统一计量标准和接口规范 跨厂商作业调度生态支持能力弱导致资源利用率受限 [45] - 异构硬件性能受多重因素影响呈非线性动态变化 传统调度模型无法精准预测任务执行损耗 [46] 国内主要算力调度平台 - 国家级平台包括全国一体化算力算网调度平台(首个人工智能公共算力开放创新平台(9家建设+16家筹建) 东数西算一体化算力交易平台 北京算力互联互通和运行服务平台 国家超级计算中心体系(天津"天河" 广州"天河二号" 济南"神威" 无锡"曙光"等) [48] - 省级/跨省级平台覆盖长三角(长三角一体化示范区异构智算云网调度平台) 粤港澳大湾区(粤港澳大湾区算力调度平台) 成渝(四川省算力调度服务平台) 京津冀(山东省黄河工业算力调度服务平台)等重点区域 [48] - 市级平台包括深圳市智慧城市算力统筹调度平台 杭州市算力资源调度服务平台 武汉市算力公共服务平台 青岛市算力调度服务平台 天津市算力交易中心等 [48] - 运营商主导平台如中国电信"息壤"算力分发网络平台 中国移动云智能算力调度平台(基于"4+N+31+X"梯次化布局) 中国联通云星罗先进算力调度平台(千卡级集群管理能力) 依托全国网络覆盖整合跨区域异构算力资源 [50] - 科技企业主导平台如中科曙光一体化算力交易调度平台 阿里云震旦异构计算平台 百度百舸AI异构计算平台 华为公共多样性算力服务平台 浪潮AI计算系统及推理平台(千卡集群线性加速比96%) 聚焦垂直领域或特定技术 [50] 开源算力调度技术平台 - openFuyao由华为 中国移动 联通等主导 支持CPU/GPU/FPGA多架构算力统一调度 优化大规模集群资源利用率 计划2025年Q3正式开源 [52] - Kubernetes是云原生容器编排平台 支持自动调度与扩缩容 服务发现与负载均衡 多集群管理 [52] - Slurm是HPC领域作业调度系统 支持分区管理 资源隔离 公平调度 [52] - Volcano是Kubernetes批处理调度插件 专为AI/大数据优化 支持Gang调度和多集群调度 [52] - YARN是Hadoop生态资源调度框架 支持资源抽象 多框架兼容(MapReduce Spark) 弹性资源分配 [52]
2025年算力调度平台行业:优化计算资源,支撑AI应用
头豹研究院·2025-08-22 12:29