LightVLA：你的VLA真的可以又强又快！

LightVLA技术核心与创新 - 提出一种面向视觉-语言-动作模型的可微分token剪枝框架，旨在解决资源受限平台上的计算开销难题 [2] - 采用自适应、性能驱动的视觉token剪枝方法，生成动态查询以评估token重要性，并使用Gumbel softmax实现可微分token选择 [2] - 框架无需依赖启发式参数且不引入额外可训练参数，使其能够兼容现代推理框架 [2] 性能表现与效率提升 - 在LIBERO基准测试中，LightVLA在计算量和延迟上分别降低59.1%与38.2%，同时任务成功率提升2.6% [3][8] - 该方法在多种任务中均优于不同VLA模型及现有token剪枝方法，以显著降低的计算开销实现了更高的成功率 [3] - 实现了效率与性能的双重提升，任务成功率提升至97.4% [8] 技术意义与行业影响 - 该研究是首个将自适应视觉token剪枝应用于VLA任务并同步优化效率与性能的工作 [3] - 标志着向高效、强大且实用的实时机器人系统迈出关键一步 [3] - 首次打破了“效率与性能不可兼得”的魔咒 [8]