KV Cache压缩
搜索文档
上海AI Lab胡侠:KV Cache压缩之后,可让价格2万美金的GPU发挥出20万美金的价值丨GAIR 2025
雷峰网· 2025-12-12 07:16
" 将 Key 跟 Value Cache 按照不同的方法压缩,可以让模型不掉 点。 " 作者丨张进 编辑丨 林觉民 目前,不同大模型厂商发布的大语言模型在处理超长上下文方面已经有显著突破,最高的已能支持数百万 Token 的输入,例如 MiniMax-M1、Qwen2.5-1M 系列模型,均支持百万Token(1M)级别的超长上 下文处理能力。 但是这场有关提升大模型上下文长度的"军备赛"依然不会停止,这是一项巨大的工程与效率之战。因为超 长下文为模型智能提供了最广阔的发挥空间——在处理如金融、法律、医疗等领域的长语境任务时表现更 好。所以谁能率先突破更长上下文处理能力,便有机会创造出更大的商业与技术价值。 胡侠团队便针对这一目标提出了一项最新研究方案——"通过有损计算(Lossy Computation)来提高大 语言模型的推理效率"。这项研究的基本思路是,利用大语言模型对来自低精度计算等"有损"操作产生的 噪声具有极强鲁棒性这一特点,主动引入可控的、不损害性能的信息损失,以换取显著的效率提升。 大模型中的"有损计算"是通过有选择地牺牲一部分精度来大幅降低计算或者存储成本,从而提升推理效 率,主要围绕模型 ...
将KV Cache预算降至1.5%!他们用进化算法把大模型内存占用砍下来了
机器之心· 2025-09-14 05:16
核心技术创新 - 提出EvolKV进化框架 仅使用完整KV cache预算的1.5%即可实现超越完整模型的性能表现 大幅降低大语言模型推理成本 [1][6][11] - 采用任务驱动的进化算法优化KV cache分配 通过下游任务性能反馈自适应调整每层缓存预算 突破传统基于规则启发式方法的局限性 [4][6][13] - 将层分组优化与黑盒进化搜索结合 在减少搜索空间的同时实现细粒度性能感知分配 支持多样化评估标准包括准确率和F1分数 [6][9][16] 性能表现 - 在Needle-in-a-Haystack基准测试中比最佳基线提升多达13% 在RULER基准测试中提升多达3.6% [11][31] - LongBench评估显示在128到2048的KV cache预算范围内持续优于所有基线 在GSM8K数学任务中128预算下比最强基线准确率提升7个百分点 [11][25] - Mistral-7B-Instruct模型在多个子数据集(MultiFieldQA-en/2WikiMultihopQA/MuSiQue等)上不仅保持完整模型竞争力 甚至在某些预算下实现超越 [22] 方法架构 - 设计缓存效率评分机制CacheScore ∈ [0,1] 通过平滑折扣函数确保方案平均预算接近目标值c 超参数λ平衡原始性能与缓存效率 [14][15] - 采用层分组策略将L个transformer层划分为J=⌈L/n_g⌉个连续组 显著降低搜索维度并优化稳定性的同时保持细粒度控制 [16] - 通过迭代进化算法逐组优化 固定已优化组参数并动态更新未优化组 最终通过比例补全机制确保总预算精确匹配目标值 [17][20] 实验结果 - 在Llama-3-8B-Instruct上TREC子集128预算时比最强基线高7.69个百分点 在GSM8K任务中512预算下达到完整模型95.7%性能 显著优于基线84.5% [23][25] - 可视化显示不同预算下KV cache分配呈非均匀模式 验证了模型不同层级在信息处理中的功能差异性 [7][27][28] - RULER基准测试表明优化策略具备强泛化能力 迁移到其他评估场景仍保持性能优势 在Mistral-7B-Instruct上提升0.99分 Llama-3-8B-Instruct提升3.6分 [31]