Workflow
可微分token剪枝
icon
搜索文档
LightVLA:你的VLA真的可以又强又快!
具身智能之心· 2025-10-14 00:02
LightVLA技术核心与创新 - 提出一种面向视觉-语言-动作模型的可微分token剪枝框架,旨在解决资源受限平台上的计算开销难题 [2] - 采用自适应、性能驱动的视觉token剪枝方法,生成动态查询以评估token重要性,并使用Gumbel softmax实现可微分token选择 [2] - 框架无需依赖启发式参数且不引入额外可训练参数,使其能够兼容现代推理框架 [2] 性能表现与效率提升 - 在LIBERO基准测试中,LightVLA在计算量和延迟上分别降低59.1%与38.2%,同时任务成功率提升2.6% [3][8] - 该方法在多种任务中均优于不同VLA模型及现有token剪枝方法,以显著降低的计算开销实现了更高的成功率 [3] - 实现了效率与性能的双重提升,任务成功率提升至97.4% [8] 技术意义与行业影响 - 该研究是首个将自适应视觉token剪枝应用于VLA任务并同步优化效率与性能的工作 [3] - 标志着向高效、强大且实用的实时机器人系统迈出关键一步 [3] - 首次打破了“效率与性能不可兼得”的魔咒 [8]
超越免训练剪枝:LightVLA引入可微分token剪枝,首次实现VLA模型性能和效率的双重突破
机器之心· 2025-09-23 04:08
核心创新 - LightVLA是一个旨在提升视觉-语言-动作模型推理效率且同时提升性能的视觉token剪枝框架 通过引入可微分视觉token剪枝和Gumbel-softmax引导的无参数token选择过程 实现自适应关键视觉token选择[5] - 在LIBERO基准测试中取得当前最佳性能 超越Pi-0、Openvla-OFT等经典VLA模型 并实现高效推理加速[6] - 提出两种token选择机制:无参数可微分剪枝框架LightVLA和基于可学习查询的剪枝框架LightVLA* 分别实现97.4%和较好性能提升[8][15] 研究动机与挑战 - 当前VLA模型面临计算开销大和推理延迟高的问题 主要源于视觉token的固有冗余[9] - 传统token剪枝方法面临效率与性能的权衡困境 现有工作为提升效率而剪枝视觉token会不可避免造成性能下降[9] - 需要让模型学会主动、任务自适应地关注信息最丰富的视觉区域 忽略无关冗余信息[9] 方法架构 - 使用可微分Token剪枝算法实现自适应剪枝 通过Query生成、Token评分和Token筛选三个步骤[16] - 采用Gumbel-softmax技巧将argmax变为可导运算 实现训练时梯度反向传播[19] - 对采样噪声方差进行线性衰减 从1逐渐衰减至0 提高训练前期探索能力和后期策略收敛[21] 性能表现 - 在LIBERO基准测试中平均成功率达到97.4% 全面超越各类强基线模型[22][29] - 仅保留平均78个视觉token 相比OpenVLA-OFT的512个token大幅减少 却实现更优性能[24][29] - 将FLOPs与延迟分别减少59.1%与38.2% 同时提升平均成功率2.6%[29] 技术验证 - 消融实验显示不引入噪声的变体保留72个视觉token 实现97.0%的次优性能[27] - 固定噪声引入使模型保留112个视觉token 但性能仍为97.0%[27] - 补充随机token会使性能下降至96.8% 随机丢弃10%token也会导致性能下降[30][31] 应用价值 - 为VLA模型轻量化与部署提供新颖解决方案 在实现更低计算开销和时延前提下取得更优性能[33] - 证明视觉模态存在高度稀疏性 大量视觉token未贡献有效信息[29] - 为解决VLA模型中的视觉冗余挑战提供新的范式[33]