低比特量化
搜索文档
NeurIPS 2025 Spotlight | NYU提出QSVD,仅数学压缩让模型更轻、更快、更稳
机器之心· 2025-11-15 09:23
文章核心观点 - 纽约大学SAI Lab提出名为QSVD的创新技术,旨在解决视觉语言模型因参数庞大导致的显存和计算压力问题 [2][3] - QSVD通过“联合低秩分解 + 量化”策略,实现不改变模型架构、无需重新训练的高效压缩,目标为“轻量化而不减智” [7][27] - 该技术在多项评估中展现出显著优势,在极低比特量化条件下仍能保持高精度,推理速度最高提升13倍 [20][22] 技术瓶颈与目标 - 视觉语言模型(如LLaVA-13B)的强大性能伴随巨大资源消耗,推理时Key-Value缓存体积极大,导致速度慢、资源耗尽,阻碍模型落地 [2][6] - 现有解决方案如Grouped-Query Attention等虽能降低计算开销,但存在精度受损或需重新训练的问题 [6] - QSVD的核心目标是实现不改架构、不重新训练的数学压缩,使模型更轻、更快、更稳 [7] QSVD核心思想:联合低秩分解 - 首创联合奇异值分解方法,将Q、K、V矩阵拼接成一个整体后进行SVD,只需一次降维计算即可得到共享的下投影矩阵 [9][10] - 在推理阶段,QSVD仅需缓存一个共享的中间表示,而非分别存储所有的K/V缓存,使显存占用直接减半,尤其在长序列生成中节省显著 [12] - 该方法带来计算更少、显存更省、表示更稳三大优势 [17] 自适应优化与量化技术 - 提出跨层秩分配策略,通过梯度近似计算每个奇异值对模型损失的影响,实现全局最优的压缩配置,避免不同层“一刀切”压缩 [13][14] - 结合后训练量化与异常值平滑技术,引入正交变换矩阵使激活分布更平滑,在4位或8位量化条件下仍保持高精度 [16][18] - 加入可学习参数优化奇异值缩放比例,平衡不同通道间的动态范围,显著降低量化误差 [18] 实验结果与性能表现 - 在LLaVA-v1.5(7B/13B)、LLaVA-Next和SmolVLM等模型上评估,QSVD在FP16精度下比ASVD与SVD-LLM精度高10%以上 [20] - 在W8A8(8位量化)下几乎无精度损失,W4A4极低比特条件下依然稳定工作 [22] - 例如,在LLaVA-v1.5 7B模型上,W4A4量化时QSVD在SciQA任务上保持52.05%的准确率,显著优于对比方法的48.77%或更低 [22] - 推理速度最高提升13倍 [22] 技术实现路径总结 - 通过三个关键步骤实现高效多模态推理:对Q/K/V矩阵进行联合低秩分解;按重要性分配秩的跨层策略;结合旋转量化与异常值平滑的量化技术 [25][26][27] - 该路径可打造出低显存、高精度、快速响应的多模态大模型 [27]
关于端侧大模型芯片化的若干趋势思考......
自动驾驶之心· 2025-10-23 00:04
文章核心观点 - 算法、框架和部署技术的演进正深刻影响未来端侧芯片的设计,当前端侧芯片在支持大模型时面临效率未达上限的挑战 [1][2] - 视觉与语言大模型带来的性能飞跃使Transformer架构支持势在必行,但其计算复杂度对端侧设备的算力和带宽提出巨大需求 [4] - 线性注意力、动态稀疏MoE、低比特量化和Token压缩是未来端侧芯片设计需重点关注的四大确定性技术趋势 [5][7][11][14] 注意力机制演进对芯片设计的影响 - Transformer自注意力机制的计算复杂度与序列长度呈平方关系,对prefill阶段算力和decode阶段带宽构成挑战 [4] - 线性注意力机制通过核函数近似将计算复杂度降至线性水平,RWKV、Mamba、DeltaNet等属此路线 [5] - 稀疏注意力通过将序列长度n变小来突破瓶颈,DSA、MoBA等技术是典型代表,今年ACL最佳论文DSA即属此类 [5] - 对端侧芯片而言,注意力机制变体影响有限,只要算子可融合则计算效率依然高,通道数、head数及SRAM容量是更关键瓶颈 [5] 动态稀疏与MoE技术的影响 - MoE技术在推理阶段只激活部分专家,14B稠密模型与30B-A3B稀疏模型相比,后者性能更好且推理时省算力、省带宽 [8] - 单batch场景下MoE优势明显,但多batch decode阶段带宽需求几乎等同于30B稠密模型,此时反而不如稠密模型 [8] - 蚂蚁集团MoE模型(100B-A6.1B及端侧16B-A1.4B)展现出稀疏性加大趋势,未来MoE技术将驱动芯片向大内存、中带宽、中算力方向发展 [9] - MoE模型压缩是工业界需关注的重点,例如MoNE等工作致力于降低内存需求 [9] 低比特量化技术趋势 - Deepseek采用FP8训练开启低比特量化新时代,端侧大模型对4bit及以下量化有更激进需求 [11] - 技术呈现四大特性:权重专用量化(如GPTQ、AWQ)以解决decode带宽瓶颈;低精度浮点与定点数两条技术路线;细粒度量化提升精度;动态与静态量化的权衡 [11][12] - 混合量化是未来趋势,尤其适合处理大模型层内层间数值不平衡问题,在MoE模型上有更大应用潜力 [12] Token压缩技术的影响 - Token维度压缩极大降低端侧大模型应用门槛,视觉Token数量远超文本Token且冗余度高,是压缩重点 [14] - FastV、PyramidDrop、Holov、LightVLM、SpecPrune-VLA等工作近期呈现井喷式发展 [14] - 对芯片设计而言,Token压缩技术是纯收益,能够直接降低计算量 [14]