存力中国行北京站暨先进存力AI推理工作研讨会顺利召开
观察者网·2025-11-06 04:14

AI大模型推理面临的挑战 - AI大模型快速普及进入Token经济时代,中国日均Token消耗量已突破30万亿,头部企业日均消耗达百亿级[1] - 传统推理架构因数据重复计算和长序列输入等问题导致GPU利用率降低,造成推理成本持续攀升和用户体验下降[1] - 推理环节面临KV Cache存储需求升级、多模态数据协同、存算协同带宽不足、负载潮汐性及成本控制等挑战[4] - IT基础设施面临三大挑战:"管不好"的数据导致难以形成高质量数据集,"喂不饱"的算力因存储带宽和IOPS不足造成GPU空闲,"降不下"的成本阻碍AI应用落地[4][5] 先进存储技术的解决方案 - 中国信通院提出三点建议:鼓励前沿存储技术研发创新,推动存算运深度融合,加强存算协同产业生态建设[3] - 移动云采用分层缓存调度、高速数据互联技术提升带宽,通过高密全闪存储、数据缩减和自研SPU高密服务器提高存储效能并降低成本[4] - 华为研发UCM推理记忆数据管理技术,通过集中高质数据、提速AI训练、优化推理效能三个角度打造AI推理加速解决方案[5] - 硅基流动的AI infra工具链结合UCM技术卸载KVCache释放显存,通过智能网关优化流量调度和弹性扩缩容策略,提升系统吞吐[5] 行业发展趋势与政策支持 - 国家在《算力基础设施高质量发展行动计划》等政策中明确要求加速存力技术研发应用、持续提升存储产业能力、推动存算网协同发展[3] - 移动云推动存储从被动存储转向智算协同,分阶段落地高密全闪存储、数据高速互联、存算一体等技术,长远构建池化多体存储体系[4] - 中国信通院联合产业链企业成立"算力产业发展方阵先进存力AI推理工作组",凝聚产业共识推动存算协同发展[3][6]