KV Cache

搜索文档
榨干GPU性能,中兴Mariana(马里亚纳)突破显存壁垒
量子位· 2025-08-26 05:46
行业背景与挑战 - 大语言模型在行业应用中面临推理效率与显存成本的尖锐矛盾 尤其KV Cache技术成为显存消耗的主要瓶颈 每增加一个token都需要更多显存存储键值向量 制约模型规模扩张和并发能力提升 [1] 现有技术方案局限性 - Nvidia Dynamo项目采用多级缓存算法 将热数据存于显存、温数据在主机内存、冷数据在SSD或远端存储 但存在数据迁移流程复杂和延迟开销问题 [2] - 微软LMCache存储系统兼容vLLM等推理框架 但分布式存储支持度低且空间上限受限 [3] - 阿里巴巴方案将KV Cache扩展到Tair数据库 虽易于扩展存储空间 但读写性能难以满足低延迟需求 [3] 技术创新方案 - CXL高速互联技术凭借高带宽、低延迟和硬件级缓存一致性特性 为破解内存瓶颈提供新方向 但目前业界针对CXL存储加速LLM推理的研究仍较少 [5] - 中兴通讯与华东师范大学联合推出Mariana分布式共享KV存储技术 通过三项核心创新实现比现有方案高1.7倍吞吐量 尾延迟降低23% [6] - 细粒度并发控制方案将锁粒度从节点级降至条目级 通过RDMA_CAS竞争空闲槽位闩锁 显著减少写密集型和高偏斜工作负载下的争用 [8] - 定制化叶子节点数据布局采用分离式存储 Key连续存放可一次性加载至SIMD寄存器 Value与校验和另存内存块 大幅提升查找速度 [10] - 自适应缓存策略通过Count-Min Sketch算法快速感知热点数据 维护按热度排序链表 降低热点数据加载延迟 [11] 性能验证与应用 - Mariana支持将数据分布在远端CPU DRAM及PMem/SSD组成的共享内存池 理论存储空间无上限 [13] - 在vLLM框架测试中 GPU显存仅能存放50% KV数据时 Mariana多级存储方案显著提升大模型推理预加载阶段性能 [15][17] - 该技术通过硬件加速和智能缓存减少KV Cache查找的计算与网络开销 提升读吞吐量 其数据路径针对低延迟优化 延迟远低于需经远端CPU协议栈的解决方案 [19] 技术演进前景 - Mariana设计理念与底层硬件解耦 核心算法可直接从RDMA网络迁移至CXL硬件生态 仅需替换远程访问API即可利用CXL低延迟和一致性优势 [18] - 该技术重新定义大模型推理存储逻辑 使分布式存储在高吞吐与低延迟间找到平衡点 为百亿/千亿参数模型在普通硬件上高效运行奠定基础 [18]
华为AI推理新技术犀利!中国银联大模型效率提高了125倍
21世纪经济报道· 2025-08-12 14:11
技术发布 - 华为发布AI推理创新技术UCM 专门优化大模型推理过程的缓存管理技术 旨在提升推理速度 效率和成本效益 [1] - UCM是以KV Cache为中心的推理加速套件 融合多类型缓存加速算法工具 分级管理推理过程中产生的KV Cache记忆数据 扩大推理上下文窗口 [1] - 技术通过推理框架 算力 存储三层协同 实现高吞吐 低时延的推理体验 降低每Token推理成本 [1][5] 技术原理 - KV Cache是一种优化Transformer模型推理速度的技术 通过缓存历史token的Key和Value矩阵 避免重复计算 提升推理速度并降低计算成本 [3] - KV Cache采用用内存换计算的工程优化手段 作为模型推理过程中的记忆本临时保存计算中间结果 [3] - UCM包含三大组件:推理引擎插件Connector 支持多级KV Cache管理及加速算法的功能库Accelerator 高性能KV Cache存取适配器Adapter [5] 性能提升 - 依托UCM层级化自适应的全局前缀缓存技术 系统可直接调用KV缓存数据 使首Token时延最大降低90% [5] - 在中国银联客户之声业务场景试点中 大模型推理速度提升125倍 仅需10秒即可精准识别客户高频问题 [5] - 国外主流模型单用户输出速度达200 Tokens/s(时延5ms) 而国内普遍小于60 Tokens/s(时延50-100ms) [4] 行业应用 - 华为联手中国银联在金融典型场景开展UCM技术试点应用 联合发布智慧金融AI推理加速方案 [1] - 金融行业因数字化属性强且对速度 效率 安全要求高 成为验证技术的标杆场景 [5] - 中国银联将依托国家人工智能应用中试基地 联合华为等生态伙伴共建AI+金融示范应用 推动技术成果规模化应用 [6] 技术优势 - UCM将专业存储能力引入分级缓存管理 在软硬件协同与卸载方面做了大量工作 包括直通加速 KV检索索引与底层文件系统元数据融合 [8] - UCM具备KV Cache生命周期管理的完整机制 包括预热 分级 淘汰等功能 [8] - 相比业界仅停留在Prefix Cache层面 UCM将稀疏全流程算法 后缀检索算法等投入商用 提供更丰富可靠的算法库 [8] 生态建设 - UCM通过开放统一的南北向接口 可适配多类型推理引擎框架 算力及存储系统 [9] - 计划于今年9月正式开源 后续逐步贡献给业界主流推理引擎社区 [9] - 华为在AI布局上持续进行产业链各环节升级 实现从单点算力模组转向系统性优化的趋势 [9]