Workflow
可微分token剪枝
icon
搜索文档
超越免训练剪枝:LightVLA引入可微分token剪枝,首次实现VLA模型性能和效率的双重突破
机器之心· 2025-09-23 04:08
核心创新 - LightVLA是一个旨在提升视觉-语言-动作模型推理效率且同时提升性能的视觉token剪枝框架 通过引入可微分视觉token剪枝和Gumbel-softmax引导的无参数token选择过程 实现自适应关键视觉token选择[5] - 在LIBERO基准测试中取得当前最佳性能 超越Pi-0、Openvla-OFT等经典VLA模型 并实现高效推理加速[6] - 提出两种token选择机制:无参数可微分剪枝框架LightVLA和基于可学习查询的剪枝框架LightVLA* 分别实现97.4%和较好性能提升[8][15] 研究动机与挑战 - 当前VLA模型面临计算开销大和推理延迟高的问题 主要源于视觉token的固有冗余[9] - 传统token剪枝方法面临效率与性能的权衡困境 现有工作为提升效率而剪枝视觉token会不可避免造成性能下降[9] - 需要让模型学会主动、任务自适应地关注信息最丰富的视觉区域 忽略无关冗余信息[9] 方法架构 - 使用可微分Token剪枝算法实现自适应剪枝 通过Query生成、Token评分和Token筛选三个步骤[16] - 采用Gumbel-softmax技巧将argmax变为可导运算 实现训练时梯度反向传播[19] - 对采样噪声方差进行线性衰减 从1逐渐衰减至0 提高训练前期探索能力和后期策略收敛[21] 性能表现 - 在LIBERO基准测试中平均成功率达到97.4% 全面超越各类强基线模型[22][29] - 仅保留平均78个视觉token 相比OpenVLA-OFT的512个token大幅减少 却实现更优性能[24][29] - 将FLOPs与延迟分别减少59.1%与38.2% 同时提升平均成功率2.6%[29] 技术验证 - 消融实验显示不引入噪声的变体保留72个视觉token 实现97.0%的次优性能[27] - 固定噪声引入使模型保留112个视觉token 但性能仍为97.0%[27] - 补充随机token会使性能下降至96.8% 随机丢弃10%token也会导致性能下降[30][31] 应用价值 - 为VLA模型轻量化与部署提供新颖解决方案 在实现更低计算开销和时延前提下取得更优性能[33] - 证明视觉模态存在高度稀疏性 大量视觉token未贡献有效信息[29] - 为解决VLA模型中的视觉冗余挑战提供新的范式[33]