Workflow
多模态大模型压缩与加速
icon
搜索文档
NeurIPS 2025 Spotlight | NYU提出QSVD,仅数学压缩让模型更轻、更快、更稳
机器之心· 2025-11-15 09:23
文章核心观点 - 纽约大学SAI Lab提出名为QSVD的创新技术,旨在解决视觉语言模型因参数庞大导致的显存和计算压力问题 [2][3] - QSVD通过“联合低秩分解 + 量化”策略,实现不改变模型架构、无需重新训练的高效压缩,目标为“轻量化而不减智” [7][27] - 该技术在多项评估中展现出显著优势,在极低比特量化条件下仍能保持高精度,推理速度最高提升13倍 [20][22] 技术瓶颈与目标 - 视觉语言模型(如LLaVA-13B)的强大性能伴随巨大资源消耗,推理时Key-Value缓存体积极大,导致速度慢、资源耗尽,阻碍模型落地 [2][6] - 现有解决方案如Grouped-Query Attention等虽能降低计算开销,但存在精度受损或需重新训练的问题 [6] - QSVD的核心目标是实现不改架构、不重新训练的数学压缩,使模型更轻、更快、更稳 [7] QSVD核心思想:联合低秩分解 - 首创联合奇异值分解方法,将Q、K、V矩阵拼接成一个整体后进行SVD,只需一次降维计算即可得到共享的下投影矩阵 [9][10] - 在推理阶段,QSVD仅需缓存一个共享的中间表示,而非分别存储所有的K/V缓存,使显存占用直接减半,尤其在长序列生成中节省显著 [12] - 该方法带来计算更少、显存更省、表示更稳三大优势 [17] 自适应优化与量化技术 - 提出跨层秩分配策略,通过梯度近似计算每个奇异值对模型损失的影响,实现全局最优的压缩配置,避免不同层“一刀切”压缩 [13][14] - 结合后训练量化与异常值平滑技术,引入正交变换矩阵使激活分布更平滑,在4位或8位量化条件下仍保持高精度 [16][18] - 加入可学习参数优化奇异值缩放比例,平衡不同通道间的动态范围,显著降低量化误差 [18] 实验结果与性能表现 - 在LLaVA-v1.5(7B/13B)、LLaVA-Next和SmolVLM等模型上评估,QSVD在FP16精度下比ASVD与SVD-LLM精度高10%以上 [20] - 在W8A8(8位量化)下几乎无精度损失,W4A4极低比特条件下依然稳定工作 [22] - 例如,在LLaVA-v1.5 7B模型上,W4A4量化时QSVD在SciQA任务上保持52.05%的准确率,显著优于对比方法的48.77%或更低 [22] - 推理速度最高提升13倍 [22] 技术实现路径总结 - 通过三个关键步骤实现高效多模态推理:对Q/K/V矩阵进行联合低秩分解;按重要性分配秩的跨层策略;结合旋转量化与异常值平滑的量化技术 [25][26][27] - 该路径可打造出低显存、高精度、快速响应的多模态大模型 [27]