清华联手理想提出LightVLA：剪掉冗余token，推理速度提升38%！

研究背景与核心挑战 - 视觉-语言-动作（VLA）模型是机器人具身智能的核心技术，能将视觉信息和语言指令直接转化为可执行的机器人动作，在复杂操作（如物体抓取、长程规划）中展现出强大能力 [2] - 这类模型存在关键瓶颈：视觉Token的计算冗余，VLA模型通常需要处理数百个视觉Token（如OpenVLA-OFT使用512个），而注意力机制的计算复杂度随Token数量呈平方增长，导致模型在边缘设备（如家用机器人、自动驾驶）上难以实现实时部署 [2] 现有优化方案的局限 - 效率与性能的trade-off：多数Token剪枝方法（如EfficientVLA、VLA-Cache）为提升效率会固定保留Token数量，导致关键语义信息丢失，最终牺牲性能 [3] - VLM剪枝方案不兼容：视觉-语言（VL）模型的剪枝方法（如SparseVLM、FastV）聚焦全局语义，而VLA模型需关注局部语义（如机械臂交互的物体），直接迁移会导致性能骤降 [3] - 部署兼容性差：基于注意力分数的剪枝方法（如SP-VLA、FlashVLA）依赖LLM的中间注意力输出，无法适配vLLM、SGLang等主流推理框架，难以落地 [3] LightVLA框架设计 - 核心逻辑是让模型通过微调自主学习筛选任务相关的视觉Token，而非依赖人工设定的剪枝比例 [4] - 设计围绕VLA模型的三模块结构（视觉编码器、LLM backbone、action head）展开，仅针对视觉Token进行剪枝（保留[CLS]Token以维持全局信息） [4] - 整体流程分为查询生成-Token评分-Token选择三阶段 [4] 查询生成阶段 - 通过视觉Token与语言Token的交叉注意力生成查询，公式为 $Q=s o f t m a x\left({\frac{H_{v}H_{l}^{T}}{\sqrt{D}}}\right)H_{l}$ [7] - 这一设计的核心逻辑是视觉Token的有用性由其与指令的关联性决定，且无需额外训练参数，避免增加模型复杂度 [7] Token评分阶段 - 每个查询会对所有视觉Token进行有用性评分，本质是计算查询与视觉Token的相似度，公式为 $S={\frac{Q H_{v}^{T}}{\sqrt{D}}}$ [10] - 评分越高说明该Token与任务的关联性越强 [10] Token选择阶段 - 采用改进版Gumbel-softmax解决传统argmax操作不可微的问题，让剪枝过程可端到端训练 [11] - 注入Gumbel噪声：为评分矩阵添加均匀分布噪声，噪声上限随训练迭代逐渐衰减 [11] - 软评分与硬选择结合：通过硬选择+软评分-停止梯度的软评分实现可微性 [12] - 推理阶段无需注入噪声，直接通过argmax选择Token，确保高效部署 [13] 实验验证结果 - 在LIBERO基准数据集上验证性能，平均成功率97.4%，较基础模型OpenVLA-OFT（94.5%）提升2.9% [16] - 在长程任务（LIBERO-Long）上成功率94.6%，远超同类剪枝方法（如SP-VLA 51.4%、VLA-Cache 52.8%） [16] - 平均仅保留78个视觉Token（仅为OpenVLA-OFT的15.2%），证明视觉Token中存在大量冗余 [16] - 计算量（FLOPs）降低59.1%，延迟降低38.2% [18] - 对比基础模型OpenVLA-OFT：虽成功率94.5%，但需处理512个Token，计算量是LightVLA的2.4倍 [18] 消融实验 - 噪声衰减的作用：无噪声或固定噪声的变体，平均成功率均降至97.0%，且固定噪声变体保留Token数增至112个 [20] - Token筛选的准确性：对筛选后的Token进行加随机Token（2k）或减10%Token（0.9k），成功率均下降（96.8%/96.6%） [20] LightVLA*变体 - 引入额外可训练参数（查询头），通过可学习查询引导Token筛选 [22] - 设计了两种部署位置：视觉编码器后剪枝和LLM早期层剪枝 [22] - 平均成功率达96.2%-97.0%，略低于LightVLA（97.4%） [23] - LLM早期层剪枝在长程任务（Long）上表现更优（94.8%），说明语言语义能进一步引导Token筛选 [23] 与MoE技术的差异 - 目标差异：LightVLA以提升任务性能为核心，筛选与任务强相关的视觉Token；MoE以均衡专家负载为核心，将任务分配给不同专家 [28] - 行为差异：LightVLA的Token选择是性能驱动的非均匀筛选（关键物体Token被优先保留）；MoE的专家选择是负载驱动的均匀分配 [28]