视觉语言模型（VLMs）

搜索文档

告别高耗时！上交Prune2Drive：自动驾驶VLM裁剪利器，加速6倍性能保持

自动驾驶之心· 2025-08-28 23:32

研究背景与挑战 - 视觉语言模型（VLMs）为自动驾驶提供统一的感知、推理与决策框架，通过联合建模视觉输入与自然语言指令实现可解释性更强的场景理解，端到端设计可缓解传统模块化系统的误差传播问题 [2] - VLMs在真实驾驶场景部署面临核心障碍：多视图高分辨率图像带来巨大计算开销，自动驾驶系统通常采用6个同步相机实现全环境感知，这些图像经视觉编码器会生成大量视觉token，而Transformer架构的自注意力机制存在二次复杂度，视觉token与文本token拼接后会显著增加推理延迟与内存消耗，难以满足实时性要求 [3] - 现有token修剪方法存在三大局限：仅针对单张图像设计忽略多视图场景下的空间语义多样性与视图间冗余；多依赖特定层注意力权重选token与Flash Attention等高效注意力实现不兼容；未考虑不同相机视图对驾驶决策的贡献差异采用均匀修剪或手工设定比例无法实现全局最优 [4] Prune2Drive框架核心设计 - 提出Token-wise Farthest Point Sampling（T-FPS）机制，受点云处理中最远点采样启发，核心目标是最大化多视图token的语义与空间覆盖度而非仅依赖单个token显著性 [6] - T-FPS采用余弦距离衡量token间语义相似性避免因嵌入空间尺度差异导致的误选，每次新增token时选择与已选token集合语义距离最大的token，确保保留非冗余且语义丰富的信息 [7] - 设计视图自适应修剪控制器，将视图专属修剪比例转化为优化问题，以任务性能最大化为目标同时约束总修剪量保证效率，优化目标含奖励项通过语言相似度衡量VLM输出与真值任务匹配度，惩罚项为所有视图修剪比例总和反映计算开销 [11][12][13] 实验设计与结果 - 实验针对两大自动驾驶多视图VLM基准数据集DriveLM和DriveLMM-o1，验证Prune2Drive性能保留与效率提升能力，对比基线包括FastV、SparseVLM、DART、PACT等主流无重训token修剪方法 [16] - 在DriveLM数据集上修剪75%（保留180 token/图）时准确率达0.80（原模型0.81），BLEU-4达0.60高于所有基线，Match评分34.0甚至超过原模型33.9，平均得分58.3仅比原模型低0.8；修剪90%（保留72 token/图）时平均得分57.4比FastV高3.3比PACT高0.6 [20] - 在DriveLMM-o1数据集上修剪90%（保留25 token/图）时风险评估准确率达68.34比PACT高1.33，场景感知与目标理解达69.86比FastV高3.43，整体推理得分68.3比所有基线高1-3分 [21][22] - 效率提升显著：在保留10%token场景下，DriveMM上预填充阶段加速6.40倍，解码阶段加速1.09倍，FLOPs仅为原模型13.4%；DriveLMM-o1上预填充阶段加速2.64倍，解码阶段加速1.04倍，FLOPs为原模型20.3% [24][25] 消融实验与关键发现 - 距离度量中余弦距离表现最优，DriveLMM-o1整体得分达68.3；若改用选最近token策略性能暴跌至63.0，证明冗余token剔除对性能的关键作用；l1和l2距离性能稍差说明余弦距离更适配token嵌入空间的语义相似性衡量 [26][27] - 优化策略中TPE效果最好，DriveLM平均得分57.4；GridSearch和Evolutionary仅轻微落后分别得57.2和57.1，证明框架对优化策略鲁棒性 [27] - 定性对比显示FastV存在位置偏差因依赖注意力权重而过多保留后视图token漏掉前视图关键车辆；DART均匀修剪各视图未考虑视图重要性导致后右视图关键障碍物丢失；Prune2Drive通过视图自适应比例和T-FPS精准保留前视图白色车、黑色车及后右视图黑色车 [31] 核心优势总结 - 即插即用无需重训VLM，不依赖注意力图，兼容Flash Attention等高效实现 [31] - 多视图适配首次考虑自动驾驶多视图的空间语义多样性与视图贡献差异 [31] - 性能-效率平衡极端修剪保留10%token下仅降3-6%性能，同时实现6.4倍加速与86%以上FLOPs降低 [31]