NeurIPS'25！AutoPrune：即插即用的自适应大模型剪枝框架

文章核心观点 - 上海交通大学与中国科学院团队提出了一种名为AutoPrune的、无需训练的复杂度自适应视觉token剪枝框架，旨在解决视觉语言模型因高分辨率图像产生大量视觉token而带来的计算与延迟瓶颈 [2][3][4] - 该方法的核心创新在于根据输入样本（图像与问题）的复杂度，动态地为解码器每一层分配token剪枝比例，而非采用固定策略，从而在严格满足全局计算预算约束下，实现更高的模型精度保留率和计算效率 [2][3][6] - 实验表明，AutoPrune在多个主流视觉语言模型及自动驾驶VLA模型上均取得显著效果，例如在LLaVA-1.5-7B模型上，剪去89%视觉token并降低76.8% FLOPs的同时，仍能保留96.7%的原始精度 [3][14] 背景与问题 - 视觉语言模型是多模态系统的核心，但高分辨率图像或视频会产生大量视觉token，导致显著的显存与延迟瓶颈，这在自动驾驶等实时场景中尤为关键 [4] - 现有token剪枝方法通常采用固定的层间分配策略，缺乏全局计算预算约束，且需要手工调参，难以适应不同难度样本（简单或复杂问题与场景）的动态推理需求 [2][4][6] - 分析发现，简单样本的跨模态注意力在模型浅层即可快速收敛，而复杂样本则需要更深的网络层进行探索和注意力迁移，这要求剪枝策略具备动态自适应性 [6][13] 方法原理 - 复杂度度量：通过计算解码器浅层视觉token与文本token注意力图之间的互信息，来量化输入样本与任务的复杂度，互信息高表示任务简单，互信息低表示任务复杂 [6][10][13] - 预算约束保留曲线：将计算出的互信息映射为一个Logistic函数（S型曲线），该曲线的斜率和拐点由互信息线性决定，然后通过解析积分和重标定，确保曲线下面积严格等于预设的全局token或FLOPs计算预算 [7][10][13] - 动态策略生成：对于简单样本（互信息高），生成的Logistic曲线在浅层快速下降，实现早期激进剪枝；对于复杂样本（互信息低），曲线在前期保持平缓，将快速剪枝延迟到更深层，以避免过早丢失关键信息 [6][13] - 联合优化框架：将视觉token剪枝建模为一个带全局预算约束的优化问题，联合优化层间token分配策略、token选择策略和token恢复策略 [9][11] 实验效果 - 在LLaVA-1.5-7B模型上：当仅保留64个视觉token时，模型性能仍保持原始精度的96.7%，FLOPs降至原来的23.2%（即降低76.8%），相比PDrop方法提升9.1% [3][14] - 在LLaVA-NeXT-7B模型上：在640、320、160三种token预算设置下，AutoPrune性能均优于对比方法（FastV, Sparse VLM, VisionZip, FasterVLM）[15] - 在640 token预算下，性能达到原始模型的99.7% [16] - 在320 token预算下，性能达到原始模型的98.2% [16] - 在160 token预算下，性能仍保留原始模型的94.9% [15][16] - 在自动驾驶VLA规划任务上：在Senna和nuScenes数据集上，在不同token保留率（20%至40%）下，AutoPrune均优于基线方法，某些情况下甚至超过未剪枝的原始模型，表明剪除噪声token可能带来正向效应 [16][17] - 例如，在保留25% token（32/128）时，性能达到原始模型的111.23% [17] 优势与意义 - 无需训练：该框架是即插即用的，无需对预训练模型进行微调即可应用，降低了部署成本 [3][10] - 通用性强：方法适用于多种视觉语言模型以及自动驾驶领域的视觉语言动作模型，并展现出跨数据集的稳定优势 [3][10][18] - 计算开销低：额外的复杂度估计与策略生成开销时间复杂度约为O(N log N)，相对于整体推理代价可以忽略，具备工程可行性 [13] - 启发于认知科学：方法设计灵感来源于人类观察思考的特点，即简单任务快速收敛，复杂任务需要维持多种假设并多次探索 [6][13][18]