可微分token剪枝 - 财报，业绩电话会，研报，新闻

可微分token剪枝

搜索文档

超越免训练剪枝：LightVLA引入可微分token剪枝，首次实现VLA模型性能和效率的双重突破

机器之心· 2025-09-23 04:08

核心创新 - LightVLA是一个旨在提升视觉-语言-动作模型推理效率且同时提升性能的视觉token剪枝框架通过引入可微分视觉token剪枝和Gumbel-softmax引导的无参数token选择过程实现自适应关键视觉token选择[5] - 在LIBERO基准测试中取得当前最佳性能超越Pi-0、Openvla-OFT等经典VLA模型并实现高效推理加速[6] - 提出两种token选择机制：无参数可微分剪枝框架LightVLA和基于可学习查询的剪枝框架LightVLA* 分别实现97.4%和较好性能提升[8][15] 研究动机与挑战 - 当前VLA模型面临计算开销大和推理延迟高的问题主要源于视觉token的固有冗余[9] - 传统token剪枝方法面临效率与性能的权衡困境现有工作为提升效率而剪枝视觉token会不可避免造成性能下降[9] - 需要让模型学会主动、任务自适应地关注信息最丰富的视觉区域忽略无关冗余信息[9] 方法架构 - 使用可微分Token剪枝算法实现自适应剪枝通过Query生成、Token评分和Token筛选三个步骤[16] - 采用Gumbel-softmax技巧将argmax变为可导运算实现训练时梯度反向传播[19] - 对采样噪声方差进行线性衰减从1逐渐衰减至0 提高训练前期探索能力和后期策略收敛[21] 性能表现 - 在LIBERO基准测试中平均成功率达到97.4% 全面超越各类强基线模型[22][29] - 仅保留平均78个视觉token 相比OpenVLA-OFT的512个token大幅减少却实现更优性能[24][29] - 将FLOPs与延迟分别减少59.1%与38.2% 同时提升平均成功率2.6%[29] 技术验证 - 消融实验显示不引入噪声的变体保留72个视觉token 实现97.0%的次优性能[27] - 固定噪声引入使模型保留112个视觉token 但性能仍为97.0%[27] - 补充随机token会使性能下降至96.8% 随机丢弃10%token也会导致性能下降[30][31] 应用价值 - 为VLA模型轻量化与部署提供新颖解决方案在实现更低计算开销和时延前提下取得更优性能[33] - 证明视觉模态存在高度稀疏性大量视觉token未贡献有效信息[29] - 为解决VLA模型中的视觉冗余挑战提供新的范式[33]

可微分token剪枝

具身智能

Artificial Intelligence

Artificial Intelligence

LightVLA

LightVLA*