UCM推理记忆数据管理技术
搜索文档
存力中国行暨先进存力AI推理工作研讨会在京顺利召开
证券日报网· 2025-11-07 07:29
会议核心观点 - 会议核心观点为AI规模化应用推进过程中,推理环节的成本、效率、质量问题凸显,先进存力成为提升AI推理效能、控制成本的关键支撑 [1][2] - 国家政策层面高度重视先进存力发展,在《算力基础设施高质量发展行动计划》等政策中明确方向,行业需凝聚共识共同推动存算协同发展 [2] 行业挑战与趋势 - AI推理面临KV Cache存储需求升级、多模态数据协同、存算协同带宽不足、负载潮汐性及成本控制等挑战 [3] - IT基础设施能力面临三大挑战:"管不好"的数据、"喂不饱"的算力、"降不下"的成本,传统存储架构难以满足高吞吐、低时延及异构数据融合需求 [4] - 未来存储技术趋势是从被动存储转向智算协同,分阶段落地高密全闪存储、数据高速互联、存算一体等技术,长远构建池化多体存储体系 [3] 公司技术方案与实践 - 中国移动云能力中心采用分层缓存调度、高速数据互联、多模数据专属存储、架构池化重组、高密全闪存储、数据缩减及自研SPU高密服务器等技术应对推理挑战并降低成本 [3] - 华为推出UCM推理记忆数据管理技术,通过集中高质数据、提速AI训练、优化推理效能三个角度打造AI推理加速解决方案 [4] - 北京硅基流动科技有限公司构建AI infra工具链,核心推理框架适配100多款开源大模型,结合UCM技术卸载KVCache释放显存,并通过智能网关优化流量调度与弹性扩缩容 [4] 行业生态建设 - 中国信息通信研究院联合产业链企业成立"算力产业发展方阵先进存力AI推理工作组",工作组成员包括中国移动云能力中心、华为、硅基流动、浪潮信息等公司 [2][5] - 会议提出三点产业发展建议:鼓励前沿存储技术研发创新,推动存算运深度融合,加强存算协同产业生态建设 [2]
Token经济时代,AI推理跑不快的瓶颈是“存力”?
钛媒体APP· 2025-11-07 04:08
行业结构性转向 - 大模型产业正经历从算力军备竞赛向推理效率商业竞争的结构性转向 [1] - 决定AI体验、成本和性能的关键因素从GPU集群转向存储能力 [1] - 先进存力从后台工程角色转变为推动AI真正落地的主动力量 [1] 存储市场前景 - 受益于AI需求强劲拉动,2025年第四季度存储价格有望持续看涨 [1] - AI应用对存储提出更高要求,服务器端对高阶DRAM和HBM需求增长挤占了消费级DRAM产能 [1] 推理负载变化 - 长上下文和复杂任务让KVCache容量随输入长度呈指数级增长 [4] - 多模态扩展至图像、音频、视频使简单顺序读写I/O模式无法满足实时推理需求 [4] - 训推一体化趋势要求推理系统在高负载下保持一致性、低延迟和稳定性 [4] 存力瓶颈影响 - GPU利用率下降主因是数据供给不上而非算力不足,经常出现"等数据"现象 [5] - 推理侧每提升20%算力利用率可带来15%—18%整体成本下降 [5] - 算力资源无谓空转直接推高推理成本 [5] 存储技术演进 - 行业通过分层缓存+动态调度提升KVCache管理效率,划分为本地极速层、共享扩展层与冷备层 [6] - 中国移动云推进基于CXL的新型高速互联,将CPU内存、GPU显存及云主机闪存统一池化 [6] - 华为针对AI推理研发UCM推理记忆数据管理技术,通过集中高质数据、提速AI训练、优化推理效能打造解决方案 [7] 优化实践成效 - 华为对万卡集群全栈存力优化后,训练可连续运行22天不间断,算效提升超过50% [9] - 硅基流动AI infra工具链适配100多款开源大模型,通过公有云服务平台提供大模型服务 [9] - 结合UCM技术卸载KVCache释放显存,基于存储的KVCache方案可大幅提升系统吞吐 [9] 未来产业共识 - GPU不再是最稀缺资源,真正稀缺是"喂饱GPU的能力",提高GPU利用率比继续堆卡更具价值 [10] - 多模态数据爆炸让存储从"存放数据"走向"管理数据",成为AI系统主动组件 [10] - 训推一体化使存储系统"实时性"从可选变为必选,存储成为业务链路一部分 [10] - CXL架构将重塑AI基础设施内存与存储边界,构造算力存力一体化可能 [11]
存力中国行北京站暨先进存力AI推理工作研讨会顺利召开
观察者网· 2025-11-06 04:14
AI大模型推理面临的挑战 - AI大模型快速普及进入Token经济时代,中国日均Token消耗量已突破30万亿,头部企业日均消耗达百亿级[1] - 传统推理架构因数据重复计算和长序列输入等问题导致GPU利用率降低,造成推理成本持续攀升和用户体验下降[1] - 推理环节面临KV Cache存储需求升级、多模态数据协同、存算协同带宽不足、负载潮汐性及成本控制等挑战[4] - IT基础设施面临三大挑战:"管不好"的数据导致难以形成高质量数据集,"喂不饱"的算力因存储带宽和IOPS不足造成GPU空闲,"降不下"的成本阻碍AI应用落地[4][5] 先进存储技术的解决方案 - 中国信通院提出三点建议:鼓励前沿存储技术研发创新,推动存算运深度融合,加强存算协同产业生态建设[3] - 移动云采用分层缓存调度、高速数据互联技术提升带宽,通过高密全闪存储、数据缩减和自研SPU高密服务器提高存储效能并降低成本[4] - 华为研发UCM推理记忆数据管理技术,通过集中高质数据、提速AI训练、优化推理效能三个角度打造AI推理加速解决方案[5] - 硅基流动的AI infra工具链结合UCM技术卸载KVCache释放显存,通过智能网关优化流量调度和弹性扩缩容策略,提升系统吞吐[5] 行业发展趋势与政策支持 - 国家在《算力基础设施高质量发展行动计划》等政策中明确要求加速存力技术研发应用、持续提升存储产业能力、推动存算网协同发展[3] - 移动云推动存储从被动存储转向智算协同,分阶段落地高密全闪存储、数据高速互联、存算一体等技术,长远构建池化多体存储体系[4] - 中国信通院联合产业链企业成立"算力产业发展方阵先进存力AI推理工作组",凝聚产业共识推动存算协同发展[3][6]
先进存力赋能AI大模型发展
中国新闻网· 2025-11-06 02:29
行业政策与规划 - 工信部等六部门在2023年10月印发《算力基础设施高质量发展行动计划》,明确提出加速存力技术研发应用、持续提升存储产业能力、推动存算网协同发展等方向 [1] - 中国信通院联合产业链企业成立“算力产业发展方阵先进存力AI推理工作组”,旨在推动存算运深度融合和加强存算协同产业生态建设 [1] AI推理面临的挑战 - AI推理在各行业大规模使用,但面临推理效率、存力等突出问题,存储对大模型训练与推理效果至关重要 [1] - AI规模化应用推进使得推理环节的成本、效率、质量问题凸显,先进存力成为提升AI推理效能和控制成本的关键 [1] - AI时代IT基础设施面临三大挑战:“管不好”的数据、“喂不饱”的算力、“降不下”的成本 [2] 公司技术解决方案 - 华为针对AI推理研发UCM推理记忆数据管理技术,通过集中高质数据、提速AI训练、优化推理效能三个角度打造AI推理加速解决方案 [2] - 北京硅基流动科技有限公司建议核心推理框架适配多模态模型与国内外算力,适配昇腾并优化DeepSeek模型以实现性价比提升 [2] - 中国移动云能力中心推动存储从被动存储转向智算协同,分阶段落地高密全闪存储、数据高速互联、存算一体等技术,长远构建池化多体存储体系 [2]