混合算力集群成为行业共识 - 混合算力集群已成为行业追求极致性价比的必然技术选项,而去年年初建设混合万卡算力还是一种权衡[1] - 从“能不混就不混”的主流观点,转变为混合算力已成为行业共识[3] - 随着对算力需求的不断增长,算力混用是未来不可阻挡的趋势,预计异构(算力混用)的比例会越来越高[6] 构建异构算力调度的技术护城河 - 构建“异构算力调度”的技术护城河是当下热议的话题,中国厂商正在构建自己的“异构算力调度”护城河[1][3] - 需要提供高效整合异构算力资源的算力平台,以及支持软硬件联合优化与加速的中间件,让异构芯片真正转化为大算力[3] - 解决“算力混用”难题将掌握定价权,商业模式是通过技术能力将算力标准化、单位化定价,产生规模经济效益[4] - 破解算力混用的技术难题,需要产业界各方及学界共同努力[6] 软硬件协同与多元异构技术发展 - 软硬件协同是解决算力挑战的一大趋势,英伟达的CUDA软件平台是其重要的“护城河”[3] - 英特尔结合了自家的Gaudi 3加速器与英伟达B200 GPU,打造了高效的异构AI系统,将英伟达B200集群的推理极限提升高达70%[3] - 建立开放、统一、合作的生态是共同破局的关键[3] 模型迭代与算力需求新挑战 - 模型的快速迭代对算力不断提出新的要求,例如从推理加速、强化学习到极低成本的MoE模型训练,国产加速卡需要不断适应[7] - 近5个月内,无穹AI云日均Token调用量增长了5倍[5] - 今年9月,无穹AI云平台某图像生成智能体客户通过开源模型复现功能,在4小时内的Token调用激增了100倍[5] - AI创作体验进阶要求基础设施从聚焦推理效率提升,转向为长程任务与上下文管理、强化学习训练框架、多模态任务与资源调度提供全面支撑[6] 智能体基础设施与算力调度演进 - 未来的智能体基础设施需要从模型算力调度向能力调度转变,能够针对不同时段、不同类型的应用需求进行算力的分部门、分时调用,以实现资源利用最大化[6] - 基于高速网络的大规模智算集群正在成为未来重点演进方向[7] 算力规模扩大带来的成本挑战 - 当算力规模扩大后,训练作业部分环节成本将随规模增长呈指数级增长,成本上升因素包括故障节点导致作业启动成功率降低、慢节点造成作业交付周期变长、规模化带来的节点检查成本增加、作业失败后排查故障节点耗时增加等[7] - 算力集群的能耗成本将显著增加,据阿里研究院2024年数据,到2030年,全球GPU算力集群的电力消耗将突破1000Twh,占全球电力消耗比重增长至2.5%左右[7]
异构AI系统正在成为主流,业内呼吁构建“混合算力”技术护城河