AAAI 2026 | 小鹏联合北大,专为VLA模型定制视觉token剪枝方法,让端到端自动驾驶更高效

文章核心观点 - 小鹏汽车与北京大学联合发表论文《FastDriveVLA》,提出了一种专为端到端自动驾驶设计的、基于重建的视觉token剪枝新范式,旨在解决现有视觉语言-动作模型因视觉token过多导致的计算成本高和推理延迟大的问题 [2][10] - 该方法的核心创新在于受人类驾驶注意力启发,聚焦于对驾驶决策至关重要的前景信息,通过构建大规模标注数据集和新型对抗性训练策略,训练出一个即插即用的轻量级剪枝器,在显著提升推理效率的同时,保持了甚至超越了原始模型的规划性能 [2][13][16][19] 研究背景与问题 - 端到端自动驾驶在一个统一框架中学习整个驾驶流程,减少了模块化系统的误差,增强了简洁性,展现出巨大潜力 [6] - 然而,现有VLA模型将视觉输入转换为大量视觉token,导致了巨大的计算开销和推理延迟,对车端部署构成重大挑战 [8] - 已有的视觉token剪枝方法(如基于注意力或相似性)并非为自动驾驶设计,存在局限性:或需重新训练整个模型,或易受无关信息干扰,或会错误保留与驾驶无关的信息 [8] 方法与创新 - 构建nuScenes-FG数据集:明确定义对驾驶决策有直接影响的前景区域(如行人、道路、车辆、交通标志等),并利用Grounded-SAM对nuScenes场景进行细粒度前景分割,构建了包含24.1万个图像-掩码对的大规模标注数据集 [13][15] - 设计基于重建的剪枝器ReconPruner:采用轻量级、可即插即用的设计,借鉴MAE风格的像素重建策略,通过让剪枝器使用其预测的高分token子集来重建前景,以此作为监督信号,鼓励其识别前景内容相关的token [16] - 提出对抗性前景-背景重建策略:为防止剪枝器采取捷径,额外要求其使用低分token重建背景区域,这种对抗性设置增强了其区分前景与背景token的能力 [19] 实验结果 - 性能对比:在nuScenes开环规划基准测试中,FastDriveVLA在不同剪枝比例下均取得了SOTA性能 [2][24] - 剪枝25%(保留2436个token)时,FastDriveVLA的L2轨迹误差平均为31.80 cm,相对性能为原始模型的100.1%;碰撞率平均为0.26%,相对性能为93.6%;路外率平均为2.77%,相对性能为101.0% [24] - 剪枝50%(保留1624个token)时,碰撞率平均为0.25%,相对性能达到97.3%,优于剪枝25%时的表现 [24][28] - 剪枝75%(保留812个token)时,路外率平均为2.91%,相对性能为96.1%,优于剪枝50%时的表现 [24][28] - 效率提升:当视觉token数量从3249减少至812(剪枝75%)时,FastDriveVLA的FLOPs直降约7.5倍;在CUDA推理延迟方面,将预填充时间减少了3.7倍、解码时间减少了1.3倍 [2][26][27] - 可视化验证:ReconPruner几乎完整保留了前景token,将背景压缩为极稀疏色块,重建画面依旧清晰;与基线方法相比,FastDriveVLA选取的token更密集地落在车道、车道线和车身上,证明了其保留关键驾驶信息的能力 [29] 结论与建议 - 研究证明了聚焦于与前景相关的视觉token是提升自动驾驶VLA模型性能与效率的关键 [28] - 对于实际部署,建议采用50%的剪枝比例,以实现性能与效率的最佳平衡 [25] - 该工作为自动驾驶VLA模型中的高效视觉token剪枝建立了新范式,并为特定任务的剪枝策略提供了有价值的洞察 [2]