LightVLA

搜索文档
超越免训练剪枝:LightVLA引入可微分token剪枝,首次实现VLA模型性能和效率的双重突破
机器之心· 2025-09-23 04:08
核心创新 - LightVLA是一个旨在提升视觉-语言-动作模型推理效率且同时提升性能的视觉token剪枝框架 通过引入可微分视觉token剪枝和Gumbel-softmax引导的无参数token选择过程 实现自适应关键视觉token选择[5] - 在LIBERO基准测试中取得当前最佳性能 超越Pi-0、Openvla-OFT等经典VLA模型 并实现高效推理加速[6] - 提出两种token选择机制:无参数可微分剪枝框架LightVLA和基于可学习查询的剪枝框架LightVLA* 分别实现97.4%和较好性能提升[8][15] 研究动机与挑战 - 当前VLA模型面临计算开销大和推理延迟高的问题 主要源于视觉token的固有冗余[9] - 传统token剪枝方法面临效率与性能的权衡困境 现有工作为提升效率而剪枝视觉token会不可避免造成性能下降[9] - 需要让模型学会主动、任务自适应地关注信息最丰富的视觉区域 忽略无关冗余信息[9] 方法架构 - 使用可微分Token剪枝算法实现自适应剪枝 通过Query生成、Token评分和Token筛选三个步骤[16] - 采用Gumbel-softmax技巧将argmax变为可导运算 实现训练时梯度反向传播[19] - 对采样噪声方差进行线性衰减 从1逐渐衰减至0 提高训练前期探索能力和后期策略收敛[21] 性能表现 - 在LIBERO基准测试中平均成功率达到97.4% 全面超越各类强基线模型[22][29] - 仅保留平均78个视觉token 相比OpenVLA-OFT的512个token大幅减少 却实现更优性能[24][29] - 将FLOPs与延迟分别减少59.1%与38.2% 同时提升平均成功率2.6%[29] 技术验证 - 消融实验显示不引入噪声的变体保留72个视觉token 实现97.0%的次优性能[27] - 固定噪声引入使模型保留112个视觉token 但性能仍为97.0%[27] - 补充随机token会使性能下降至96.8% 随机丢弃10%token也会导致性能下降[30][31] 应用价值 - 为VLA模型轻量化与部署提供新颖解决方案 在实现更低计算开销和时延前提下取得更优性能[33] - 证明视觉模态存在高度稀疏性 大量视觉token未贡献有效信息[29] - 为解决VLA模型中的视觉冗余挑战提供新的范式[33]
理想发布机器人领域VLA模型优化框架
理想TOP2· 2025-09-21 15:08
技术突破 - 公司发布LightVLA框架 是首个能同时提升机器人视觉语言动作模型任务成功率和运行效率的自适应视觉token剪枝方案[2] - 核心思想通过识别并丢弃对任务不重要、信息量少或冗余的视觉token 仅保留关键token进行后续计算 显著降低计算量并解决传统VLA模型在边缘设备部署的高延迟问题[3] - 将token剪枝从效率-性能权衡的压缩任务转变为纯粹由性能驱动的优化任务 模型为追求最高任务成功率自发剪除干扰性token 实现性能与效率同步提升[4] 技术实现 - 采用无参数查询生成机制 通过视觉token与指令token的交叉注意力动态生成token查询[5] - 通过查询对全部视觉令牌进行关联度评分 并借助Gumbel-softmax技术实现可微分的token选择 使梯度可反向传播[5] - 框架无需引入新可训练参数或手动设置固定剪枝比例 形成通用即插即用优化方案[4] 性能表现 - 在LIBERO机器人操作基准测试中 任务平均成功率从94.5%提升至97.4% 提升幅度达2.9%[5] - 浮点运算数降低59.1% 端到端延迟从34ms降至21ms 降幅达38.2%[5] - 平均视觉令牌保留量从512个降至78个 压缩率显著 证明视觉输入存在大量冗余信息[6] 行业地位 - 在所有参与对比的VLA加速方法中 该框架是唯一实现加速同时提升模型性能的方案[7] - 研究成果由理想汽车作为第一单位 联合清华大学车辆与运载学院及中科院计算所共同完成[1]
清华联手理想提出LightVLA:剪掉冗余token,推理速度提升38%!
具身智能之心· 2025-09-18 00:03
研究背景与核心挑战 - 视觉-语言-动作(VLA)模型是机器人具身智能的核心技术,能将视觉信息和语言指令直接转化为可执行的机器人动作,在复杂操作(如物体抓取、长程规划)中展现出强大能力 [2] - 这类模型存在关键瓶颈:视觉Token的计算冗余,VLA模型通常需要处理数百个视觉Token(如OpenVLA-OFT使用512个),而注意力机制的计算复杂度随Token数量呈平方增长,导致模型在边缘设备(如家用机器人、自动驾驶)上难以实现实时部署 [2] 现有优化方案的局限 - 效率与性能的trade-off:多数Token剪枝方法(如EfficientVLA、VLA-Cache)为提升效率会固定保留Token数量,导致关键语义信息丢失,最终牺牲性能 [3] - VLM剪枝方案不兼容:视觉-语言(VL)模型的剪枝方法(如SparseVLM、FastV)聚焦全局语义,而VLA模型需关注局部语义(如机械臂交互的物体),直接迁移会导致性能骤降 [3] - 部署兼容性差:基于注意力分数的剪枝方法(如SP-VLA、FlashVLA)依赖LLM的中间注意力输出,无法适配vLLM、SGLang等主流推理框架,难以落地 [3] LightVLA框架设计 - 核心逻辑是让模型通过微调自主学习筛选任务相关的视觉Token,而非依赖人工设定的剪枝比例 [4] - 设计围绕VLA模型的三模块结构(视觉编码器、LLM backbone、action head)展开,仅针对视觉Token进行剪枝(保留[CLS]Token以维持全局信息) [4] - 整体流程分为查询生成-Token评分-Token选择三阶段 [4] 查询生成阶段 - 通过视觉Token与语言Token的交叉注意力生成查询,公式为 $$Q=s o f t m a x\left({\frac{H_{v}H_{l}^{T}}{\sqrt{D}}}\right)H_{l}$$ [7] - 这一设计的核心逻辑是视觉Token的有用性由其与指令的关联性决定,且无需额外训练参数,避免增加模型复杂度 [7] Token评分阶段 - 每个查询会对所有视觉Token进行有用性评分,本质是计算查询与视觉Token的相似度,公式为 $$S={\frac{Q H_{v}^{T}}{\sqrt{D}}}$$ [10] - 评分越高说明该Token与任务的关联性越强 [10] Token选择阶段 - 采用改进版Gumbel-softmax解决传统argmax操作不可微的问题,让剪枝过程可端到端训练 [11] - 注入Gumbel噪声:为评分矩阵添加均匀分布噪声,噪声上限随训练迭代逐渐衰减 [11] - 软评分与硬选择结合:通过硬选择+软评分-停止梯度的软评分实现可微性 [12] - 推理阶段无需注入噪声,直接通过argmax选择Token,确保高效部署 [13] 实验验证结果 - 在LIBERO基准数据集上验证性能,平均成功率97.4%,较基础模型OpenVLA-OFT(94.5%)提升2.9% [16] - 在长程任务(LIBERO-Long)上成功率94.6%,远超同类剪枝方法(如SP-VLA 51.4%、VLA-Cache 52.8%) [16] - 平均仅保留78个视觉Token(仅为OpenVLA-OFT的15.2%),证明视觉Token中存在大量冗余 [16] - 计算量(FLOPs)降低59.1%,延迟降低38.2% [18] - 对比基础模型OpenVLA-OFT:虽成功率94.5%,但需处理512个Token,计算量是LightVLA的2.4倍 [18] 消融实验 - 噪声衰减的作用:无噪声或固定噪声的变体,平均成功率均降至97.0%,且固定噪声变体保留Token数增至112个 [20] - Token筛选的准确性:对筛选后的Token进行加随机Token(2k)或减10%Token(0.9k),成功率均下降(96.8%/96.6%) [20] LightVLA*变体 - 引入额外可训练参数(查询头),通过可学习查询引导Token筛选 [22] - 设计了两种部署位置:视觉编码器后剪枝和LLM早期层剪枝 [22] - 平均成功率达96.2%-97.0%,略低于LightVLA(97.4%) [23] - LLM早期层剪枝在长程任务(Long)上表现更优(94.8%),说明语言语义能进一步引导Token筛选 [23] 与MoE技术的差异 - 目标差异:LightVLA以提升任务性能为核心,筛选与任务强相关的视觉Token;MoE以均衡专家负载为核心,将任务分配给不同专家 [28] - 行为差异:LightVLA的Token选择是性能驱动的非均匀筛选(关键物体Token被优先保留);MoE的专家选择是负载驱动的均匀分配 [28]