AAAI 2026 | 小鹏联合北大，专为VLA模型定制视觉token剪枝方法

文章核心观点 - 小鹏汽车与北京大学联合提出了一种专为端到端自动驾驶设计的视觉语言模型视觉token剪枝新框架FastDriveVLA [1] - 该框架基于“前景信息比背景信息对驾驶决策更有价值”的假设 [2] - 通过创新的基于重建的剪枝器ReconPruner，在显著提升推理效率的同时，保持了甚至超越了原始模型的驾驶性能 [2][8][25] 研究背景与问题 - 端到端自动驾驶系统因其简洁性和减少误差传递的潜力而受到关注，但现有VLA模型将视觉输入转换为大量视觉token，导致巨大的计算开销和推理延迟，对车端部署构成挑战 [7] - 现有的视觉token剪枝方法（如引入新投影器、基于注意力或相似性的策略）并非为自动驾驶设计，在自动驾驶场景中存在局限性 [1][7] 方法与创新 - 构建了大规模自动驾驶前景标注数据集nuScenes-FG，包含来自6个摄像头视角的24.1万个图像-掩码对，明确定义了对驾驶决策有直接影响的前景区域（如行人、车辆、道路、交通标志等） [2][13] - 提出了一个轻量级、可即插即用的基于重建的剪枝器ReconPruner [16] - ReconPruner采用MAE风格的像素重建策略，并创新性地引入了对抗性前景-背景重建策略，以增强其区分前景与背景视觉token的能力 [16][19] 实验结果 - 在nuScenes开环规划基准测试中，FastDriveVLA在不同剪枝比例下均取得了SOTA性能 [2] - 当视觉token数量从3249个减少至812个（剪枝75%）时，FastDriveVLA的FLOPs直降约7.5倍 [2][26] - 在CUDA推理延迟方面，FastDriveVLA将预填充时间减少了3.7倍、将解码时间减少了1.3倍 [2][26] - 在剪枝25%时，FastDriveVLA的L2轨迹误差和碰撞率指标分别比未剪枝的原始模型低了0.1%和1.0% [28] - 研究建议在实际部署中采用50%的剪枝比例，以实现性能与效率的最佳平衡 [25] 效率与性能对比 - 在剪枝75%的情况下，FastDriveVLA的Token FLOPs为5.1T，预填充时间为51 ms/token，解码时间为18 ms/token [27] - 与基于注意力的基线（FastV, SparseVLM）和基于相似性的基线（DivPrune, VisPruner）相比，FastDriveVLA在各种剪枝比例下均展现出更优或更具竞争力的性能 [24] - 可视化分析表明，ReconPruner能有效保留前景关键信息（如车道、车辆），而其他方法存在漏检或定位不准的问题 [29]