算力利用率提升30%,华为与三大高校开源Flex:ai
凤凰网·2025-11-26 13:49

技术发布与核心目标 - 华为联合上海交通大学、西安交通大学、厦门大学正式发布并开源AI容器技术Flex:ai,旨在通过虚拟化与资源池化实现算力资源的精细化管理与智能调度,推动AI技术走向“平民化”[1] - 该技术致力于解决企业有限算力卡在模型开发阶段需同时支持开发、训练与推理的问题,核心目标是让算力资源“活”起来[1] 行业痛点与解决方案 - 行业面临小任务单卡算力用不完的痛点,例如使用Llama3.0 3B模型进行文本总结时单卡算力利用率极低,RAG模型仅占用3%-5%算力[1] - 大任务单机算力不够用,需跨节点聚合资源,同时多任务并发调度存在资源争抢难题[1] - 针对资源切分,通过API劫持与转发将单张GPU或NPU切分为1/4、1/8、1/16等虚拟算力单元,实现空间共享与资源隔离,在测试中资源利用率从20%提升至80%,在NPU上实验显示资源利用率可达99%[1] - 针对跨节点聚合,研发跨节点拉远虚拟化技术,通过API劫持与RDMA高速网络将集群中各节点的空闲XPU算力聚合为共享算力池,该方案相比现有最优技术提升67%高优先级作业吞吐量,并有效利用17%的内部碎片资源[1] - 针对智能调度,研发Hi Scheduler调度器支持对国产GPU、NPU等异构算力进行时分与空分切分,通过分层调度机制使集群整体资源利用率提升30%,并保障多租户环境下的公平性与隔离性[1] 开源策略与生态建设 - 公司将Flex:ai全栈技术开源,开源模块包括智能调度器与算力虚拟化组件,支持与Kubernetes等主流框架集成,以加速技术普及与生态共建[2] - 开源方案面向异构硬件开放,相比受限于商业合作与硬件绑定的RunAI等方案更具通用性,未来将推动南向异构算力兼容并构建标准化接口[2] - 高校已布局拓扑感知调度、推理负载优化等后续研究方向,以推动该技术在复杂场景中落地[2] 底层技术挑战与进展 - 企业部署AI推理面临高服务质量与低资源利用率根本矛盾,例如医院白天推理服务器负载峰值而夜间闲置导致资源利用率极低[3] - 实现动态扩缩、任务迁移与细粒度资源分配需突破保序流图、细粒度资源隔离与安全点协议三大技术[3] - 通过算子劫持、状态同步与分层调度,在单卡场景下实现故障迁移与性能隔离,开销控制在5%以内,但跨节点迁移与大规模集群调度仍是待攻克难点[3]