训推一体化
搜索文档
Token经济时代,AI推理跑不快的瓶颈是“存力”?
钛媒体APP· 2025-11-07 04:08
行业结构性转向 - 大模型产业正经历从算力军备竞赛向推理效率商业竞争的结构性转向 [1] - 决定AI体验、成本和性能的关键因素从GPU集群转向存储能力 [1] - 先进存力从后台工程角色转变为推动AI真正落地的主动力量 [1] 存储市场前景 - 受益于AI需求强劲拉动,2025年第四季度存储价格有望持续看涨 [1] - AI应用对存储提出更高要求,服务器端对高阶DRAM和HBM需求增长挤占了消费级DRAM产能 [1] 推理负载变化 - 长上下文和复杂任务让KVCache容量随输入长度呈指数级增长 [4] - 多模态扩展至图像、音频、视频使简单顺序读写I/O模式无法满足实时推理需求 [4] - 训推一体化趋势要求推理系统在高负载下保持一致性、低延迟和稳定性 [4] 存力瓶颈影响 - GPU利用率下降主因是数据供给不上而非算力不足,经常出现"等数据"现象 [5] - 推理侧每提升20%算力利用率可带来15%—18%整体成本下降 [5] - 算力资源无谓空转直接推高推理成本 [5] 存储技术演进 - 行业通过分层缓存+动态调度提升KVCache管理效率,划分为本地极速层、共享扩展层与冷备层 [6] - 中国移动云推进基于CXL的新型高速互联,将CPU内存、GPU显存及云主机闪存统一池化 [6] - 华为针对AI推理研发UCM推理记忆数据管理技术,通过集中高质数据、提速AI训练、优化推理效能打造解决方案 [7] 优化实践成效 - 华为对万卡集群全栈存力优化后,训练可连续运行22天不间断,算效提升超过50% [9] - 硅基流动AI infra工具链适配100多款开源大模型,通过公有云服务平台提供大模型服务 [9] - 结合UCM技术卸载KVCache释放显存,基于存储的KVCache方案可大幅提升系统吞吐 [9] 未来产业共识 - GPU不再是最稀缺资源,真正稀缺是"喂饱GPU的能力",提高GPU利用率比继续堆卡更具价值 [10] - 多模态数据爆炸让存储从"存放数据"走向"管理数据",成为AI系统主动组件 [10] - 训推一体化使存储系统"实时性"从可选变为必选,存储成为业务链路一部分 [10] - CXL架构将重塑AI基础设施内存与存储边界,构造算力存力一体化可能 [11]