研究背景与核心挑战 - 视觉-语言-动作(VLA)模型是机器人具身智能的核心技术,能将视觉信息和语言指令直接转化为可执行的机器人动作,在复杂操作(如物体抓取、长程规划)中展现出强大能力 [2] - 这类模型存在关键瓶颈:视觉Token的计算冗余,VLA模型通常需要处理数百个视觉Token(如OpenVLA-OFT使用512个),而注意力机制的计算复杂度随Token数量呈平方增长,导致模型在边缘设备(如家用机器人、自动驾驶)上难以实现实时部署 [2] 现有优化方案的局限 - 效率与性能的trade-off:多数Token剪枝方法(如EfficientVLA、VLA-Cache)为提升效率会固定保留Token数量,导致关键语义信息丢失,最终牺牲性能 [3] - VLM剪枝方案不兼容:视觉-语言(VL)模型的剪枝方法(如SparseVLM、FastV)聚焦全局语义,而VLA模型需关注局部语义(如机械臂交互的物体),直接迁移会导致性能骤降 [3] - 部署兼容性差:基于注意力分数的剪枝方法(如SP-VLA、FlashVLA)依赖LLM的中间注意力输出,无法适配vLLM、SGLang等主流推理框架,难以落地 [3] LightVLA框架设计 - 核心逻辑是让模型通过微调自主学习筛选任务相关的视觉Token,而非依赖人工设定的剪枝比例 [4] - 设计围绕VLA模型的三模块结构(视觉编码器、LLM backbone、action head)展开,仅针对视觉Token进行剪枝(保留[CLS]Token以维持全局信息) [4] - 整体流程分为查询生成-Token评分-Token选择三阶段 [4] 查询生成阶段 - 通过视觉Token与语言Token的交叉注意力生成查询,公式为 [7] - 这一设计的核心逻辑是视觉Token的有用性由其与指令的关联性决定,且无需额外训练参数,避免增加模型复杂度 [7] Token评分阶段 - 每个查询会对所有视觉Token进行有用性评分,本质是计算查询与视觉Token的相似度,公式为 [10] - 评分越高说明该Token与任务的关联性越强 [10] Token选择阶段 - 采用改进版Gumbel-softmax解决传统argmax操作不可微的问题,让剪枝过程可端到端训练 [11] - 注入Gumbel噪声:为评分矩阵添加均匀分布噪声,噪声上限随训练迭代逐渐衰减 [11] - 软评分与硬选择结合:通过硬选择+软评分-停止梯度的软评分实现可微性 [12] - 推理阶段无需注入噪声,直接通过argmax选择Token,确保高效部署 [13] 实验验证结果 - 在LIBERO基准数据集上验证性能,平均成功率97.4%,较基础模型OpenVLA-OFT(94.5%)提升2.9% [16] - 在长程任务(LIBERO-Long)上成功率94.6%,远超同类剪枝方法(如SP-VLA 51.4%、VLA-Cache 52.8%) [16] - 平均仅保留78个视觉Token(仅为OpenVLA-OFT的15.2%),证明视觉Token中存在大量冗余 [16] - 计算量(FLOPs)降低59.1%,延迟降低38.2% [18] - 对比基础模型OpenVLA-OFT:虽成功率94.5%,但需处理512个Token,计算量是LightVLA的2.4倍 [18] 消融实验 - 噪声衰减的作用:无噪声或固定噪声的变体,平均成功率均降至97.0%,且固定噪声变体保留Token数增至112个 [20] - Token筛选的准确性:对筛选后的Token进行加随机Token(2k)或减10%Token(0.9k),成功率均下降(96.8%/96.6%) [20] LightVLA*变体 - 引入额外可训练参数(查询头),通过可学习查询引导Token筛选 [22] - 设计了两种部署位置:视觉编码器后剪枝和LLM早期层剪枝 [22] - 平均成功率达96.2%-97.0%,略低于LightVLA(97.4%) [23] - LLM早期层剪枝在长程任务(Long)上表现更优(94.8%),说明语言语义能进一步引导Token筛选 [23] 与MoE技术的差异 - 目标差异:LightVLA以提升任务性能为核心,筛选与任务强相关的视觉Token;MoE以均衡专家负载为核心,将任务分配给不同专家 [28] - 行为差异:LightVLA的Token选择是性能驱动的非均匀筛选(关键物体Token被优先保留);MoE的专家选择是负载驱动的均匀分配 [28]
清华联手理想提出LightVLA:剪掉冗余token,推理速度提升38%!
具身智能之心·2025-09-18 00:03