Workflow
ReconPruner
icon
搜索文档
面向量产VLA!FastDriveVLA:即插即用剪枝模块,推理加速近4倍
自动驾驶之心· 2025-08-23 16:03
核心观点 - 提出FastDriveVLA框架,通过重建式视觉token剪枝技术,在50%压缩率下保持97.3%的自动驾驶规划性能,显著降低计算开销 [5][43] - 设计即插即用剪枝器ReconPruner,结合对抗式前景-背景重建策略,增强前景token辨识能力 [5][20][43] - 构建nuScenes-FG数据集,包含24.1万张图像-掩码对,覆盖六视角车载摄像头,提供细粒度前景分割标注 [6][15][43] 技术背景与行业现状 - 端到端自动驾驶方案通过单一模型完成感知到规划,减少模块间信息损失,但VLA模型因大量视觉token导致高计算延迟 [3][9] - 现有剪枝方法存在局限性:注意力机制法受限于简短文本指令,相似度法易误删关键前景token [4][14][11] - VLA模型通过自然语言增强车辆推理能力,DriveGPT4、OpenDriveVLA等方案已实现细粒度控制输出 [10] 方法论创新 - 基于人类驾驶行为定义前景(车辆、道路、交通标志等)与背景(建筑物、天空等),聚焦关键信息区域 [12] - ReconPruner仅含0.07B参数,通过MAE风格像素重建任务训练,量化token显著性 [17][19] - 对抗式策略强制低分token重建背景,避免"所有token高分"的退化解,提升区分精度 [20][34] 实验与性能 - 在nuScenes数据集测试,输入分辨率1596×1596(3249个token),评估25%/50%/75%剪枝比例 [28][30] - 50%剪枝下:L2误差32.10cm(相对基线99.1%),碰撞率0.25%(97.3%),交叉口率2.94%(95.1%) [30][35] - 对比基线方法:FastDriveVLA在L2误差、碰撞率等关键指标均优于注意力法(FastV)和相似度法(DivPrune) [30][46] 效率提升 - 75%剪枝时:FLOPs降低7.5倍,Prefill延迟减少3.7倍,Decode延迟减少1.3倍 [37][40] - 轻量化设计使CUDA延迟低于部分无参数方法,提升实时部署可行性 [36][37] 数据与可视化 - nuScenes-FG数据集通过GroundedSAM标注,解决原始3D边界框粗糙问题,提供精细前景分割 [15][33] - 可视化显示FastDriveVLA完整保留车道和车辆token,优于基线方法对关键区域的遗漏 [38][46] 行业意义 - 为VLA模型高效推理提供新范式,推动端到端自动驾驶在车载芯片的实际部署 [43][36] - 重建式剪枝策略可扩展至其他具身智能领域,为任务特定型token压缩提供参考 [11][43]
面向量产VLA方案!FastDriveVLA:即插即用剪枝模块,推理加速近4倍(北大&小鹏)
自动驾驶之心· 2025-08-04 23:33
端到端自动驾驶技术演进 - 端到端自动驾驶方案在单一模型中完成从感知到规划的全过程,相比传统模块化方案减少了信息损失并简化了系统架构 [3] - 视觉-语言-动作(VLA)模型通过引入大语言模型的推理能力,在复杂场景理解和决策方面表现优于传统方法 [3] - 近期研究如SOLVE、OpenDriveVLA结合大模型技术,显著提升了系统性能和可解释性 [9] VLA模型的计算挑战与剪枝需求 - VLA模型将输入图像编码为大量视觉token(如3249个),导致高昂计算开销和推理延迟 [4] - 现有剪枝方法包括注意力机制导向法(如FastV、SparseVLM)和相似度导向法(如VisPruner、DivPrune),但存在监督信息不足或误删关键token的问题 [4][14] - 驾驶场景中文本指令固定且简短,难以提供有效剪枝指导 [4] FastDriveVLA创新框架 - 提出重建式视觉token剪枝框架,核心思想是模仿人类驾驶行为,仅保留与决策相关的前景区域token [5] - 开发即插即用剪枝器ReconPruner,参数量仅0.07B,通过MAE风格像素重建任务训练 [17][19] - 引入对抗式前景-背景重建策略,强制低分token重建背景以防止模型退化 [5][20] nuScenes-FG数据集构建 - 基于nuScenes数据集使用GroundedSAM进行精细前景分割,涵盖人、道路、车辆等关键要素 [12][15] - 包含24.1万张图像-mask对,覆盖六个车载摄像头视角 [6][15] - 明确定义前景与背景区域,背景如建筑物、天空等不影响驾驶决策 [12] 实验性能表现 - 在50%剪枝比例下(保留1624个token),L2误差为32.10cm(相对性能保持99.1%),碰撞率0.25%(保持97.3%) [30][32] - 在25%剪枝比例下(保留2436个token),L2误差31.80cm(超过基线0.1%),碰撞率0.26%(超过基线1.0%) [30] - 在75%剪枝比例下(保留812个token),仍保持最优性能,L2误差32.64cm(保持97.5%) [30] 效率提升效果 - FLOPs降低7.5倍,从38.2T减少至5.1T [37][40] - Prefill延迟减少3.7倍,从187ms/token降至51ms/token [37][40] - Decode延迟减少1.3倍,从23ms/token降至18ms/token [37][40] 方法优势验证 - 消融实验表明像素重建与对抗策略结合效果最佳,单独使用任一策略性能下降 [31][32] - 相比前景掩码剪枝方法(Gt-mask+Text-attn),在50%剪枝率下L2误差降低0.06cm,碰撞率降低0.01% [33][35] - 可视化结果显示能精确保留车道、车辆等关键token,避免背景干扰 [38][46] 行业应用价值 - 为VLA模型高效推理提供新范式,特别适用于具有明确前景区域的自动驾驶任务 [43] - 构建的nuScenes-FG数据集为后续研究提供通用基准 [13][43] - 轻量级设计(0.07B参数)和短训练时间(3小时/2卡H800)利于实际部署 [17][27]