Workflow
视觉token剪枝
icon
搜索文档
AAAI 2026 | 小鹏联合北大,专为VLA模型定制视觉token剪枝方法
具身智能之心· 2026-01-05 01:03
文章核心观点 - 小鹏汽车与北京大学联合提出了一种专为端到端自动驾驶设计的视觉语言模型视觉token剪枝新框架FastDriveVLA [1] - 该框架基于“前景信息比背景信息对驾驶决策更有价值”的假设 [2] - 通过创新的基于重建的剪枝器ReconPruner,在显著提升推理效率的同时,保持了甚至超越了原始模型的驾驶性能 [2][8][25] 研究背景与问题 - 端到端自动驾驶系统因其简洁性和减少误差传递的潜力而受到关注,但现有VLA模型将视觉输入转换为大量视觉token,导致巨大的计算开销和推理延迟,对车端部署构成挑战 [7] - 现有的视觉token剪枝方法(如引入新投影器、基于注意力或相似性的策略)并非为自动驾驶设计,在自动驾驶场景中存在局限性 [1][7] 方法与创新 - 构建了大规模自动驾驶前景标注数据集nuScenes-FG,包含来自6个摄像头视角的24.1万个图像-掩码对,明确定义了对驾驶决策有直接影响的前景区域(如行人、车辆、道路、交通标志等) [2][13] - 提出了一个轻量级、可即插即用的基于重建的剪枝器ReconPruner [16] - ReconPruner采用MAE风格的像素重建策略,并创新性地引入了对抗性前景-背景重建策略,以增强其区分前景与背景视觉token的能力 [16][19] 实验结果 - 在nuScenes开环规划基准测试中,FastDriveVLA在不同剪枝比例下均取得了SOTA性能 [2] - 当视觉token数量从3249个减少至812个(剪枝75%)时,FastDriveVLA的FLOPs直降约7.5倍 [2][26] - 在CUDA推理延迟方面,FastDriveVLA将预填充时间减少了3.7倍、将解码时间减少了1.3倍 [2][26] - 在剪枝25%时,FastDriveVLA的L2轨迹误差和碰撞率指标分别比未剪枝的原始模型低了0.1%和1.0% [28] - 研究建议在实际部署中采用50%的剪枝比例,以实现性能与效率的最佳平衡 [25] 效率与性能对比 - 在剪枝75%的情况下,FastDriveVLA的Token FLOPs为5.1T,预填充时间为51 ms/token,解码时间为18 ms/token [27] - 与基于注意力的基线(FastV, SparseVLM)和基于相似性的基线(DivPrune, VisPruner)相比,FastDriveVLA在各种剪枝比例下均展现出更优或更具竞争力的性能 [24] - 可视化分析表明,ReconPruner能有效保留前景关键信息(如车道、车辆),而其他方法存在漏检或定位不准的问题 [29]
AAAI 2026 | 小鹏联合北大,专为VLA模型定制视觉token剪枝方法,让端到端自动驾驶更高效
机器之心· 2026-01-04 05:43
文章核心观点 - 小鹏汽车与北京大学联合发表论文《FastDriveVLA》,提出了一种专为端到端自动驾驶设计的、基于重建的视觉token剪枝新范式,旨在解决现有视觉语言-动作模型因视觉token过多导致的计算成本高和推理延迟大的问题 [2][10] - 该方法的核心创新在于受人类驾驶注意力启发,聚焦于对驾驶决策至关重要的前景信息,通过构建大规模标注数据集和新型对抗性训练策略,训练出一个即插即用的轻量级剪枝器,在显著提升推理效率的同时,保持了甚至超越了原始模型的规划性能 [2][13][16][19] 研究背景与问题 - 端到端自动驾驶在一个统一框架中学习整个驾驶流程,减少了模块化系统的误差,增强了简洁性,展现出巨大潜力 [6] - 然而,现有VLA模型将视觉输入转换为大量视觉token,导致了巨大的计算开销和推理延迟,对车端部署构成重大挑战 [8] - 已有的视觉token剪枝方法(如基于注意力或相似性)并非为自动驾驶设计,存在局限性:或需重新训练整个模型,或易受无关信息干扰,或会错误保留与驾驶无关的信息 [8] 方法与创新 - **构建nuScenes-FG数据集**:明确定义对驾驶决策有直接影响的前景区域(如行人、道路、车辆、交通标志等),并利用Grounded-SAM对nuScenes场景进行细粒度前景分割,构建了包含24.1万个图像-掩码对的大规模标注数据集 [13][15] - **设计基于重建的剪枝器ReconPruner**:采用轻量级、可即插即用的设计,借鉴MAE风格的像素重建策略,通过让剪枝器使用其预测的高分token子集来重建前景,以此作为监督信号,鼓励其识别前景内容相关的token [16] - **提出对抗性前景-背景重建策略**:为防止剪枝器采取捷径,额外要求其使用低分token重建背景区域,这种对抗性设置增强了其区分前景与背景token的能力 [19] 实验结果 - **性能对比**:在nuScenes开环规划基准测试中,FastDriveVLA在不同剪枝比例下均取得了SOTA性能 [2][24] - 剪枝25%(保留2436个token)时,FastDriveVLA的L2轨迹误差平均为31.80 cm,相对性能为原始模型的100.1%;碰撞率平均为0.26%,相对性能为93.6%;路外率平均为2.77%,相对性能为101.0% [24] - 剪枝50%(保留1624个token)时,碰撞率平均为0.25%,相对性能达到97.3%,优于剪枝25%时的表现 [24][28] - 剪枝75%(保留812个token)时,路外率平均为2.91%,相对性能为96.1%,优于剪枝50%时的表现 [24][28] - **效率提升**:当视觉token数量从3249减少至812(剪枝75%)时,FastDriveVLA的FLOPs直降约7.5倍;在CUDA推理延迟方面,将预填充时间减少了3.7倍、解码时间减少了1.3倍 [2][26][27] - **可视化验证**:ReconPruner几乎完整保留了前景token,将背景压缩为极稀疏色块,重建画面依旧清晰;与基线方法相比,FastDriveVLA选取的token更密集地落在车道、车道线和车身上,证明了其保留关键驾驶信息的能力 [29] 结论与建议 - 研究证明了聚焦于与前景相关的视觉token是提升自动驾驶VLA模型性能与效率的关键 [28] - 对于实际部署,建议采用50%的剪枝比例,以实现性能与效率的最佳平衡 [25] - 该工作为自动驾驶VLA模型中的高效视觉token剪枝建立了新范式,并为特定任务的剪枝策略提供了有价值的洞察 [2]