Vision - language - action Models

搜索文档
理想发布机器人领域VLA模型优化框架
理想TOP2· 2025-09-21 15:08
技术突破 - 公司发布LightVLA框架 是首个能同时提升机器人视觉语言动作模型任务成功率和运行效率的自适应视觉token剪枝方案[2] - 核心思想通过识别并丢弃对任务不重要、信息量少或冗余的视觉token 仅保留关键token进行后续计算 显著降低计算量并解决传统VLA模型在边缘设备部署的高延迟问题[3] - 将token剪枝从效率-性能权衡的压缩任务转变为纯粹由性能驱动的优化任务 模型为追求最高任务成功率自发剪除干扰性token 实现性能与效率同步提升[4] 技术实现 - 采用无参数查询生成机制 通过视觉token与指令token的交叉注意力动态生成token查询[5] - 通过查询对全部视觉令牌进行关联度评分 并借助Gumbel-softmax技术实现可微分的token选择 使梯度可反向传播[5] - 框架无需引入新可训练参数或手动设置固定剪枝比例 形成通用即插即用优化方案[4] 性能表现 - 在LIBERO机器人操作基准测试中 任务平均成功率从94.5%提升至97.4% 提升幅度达2.9%[5] - 浮点运算数降低59.1% 端到端延迟从34ms降至21ms 降幅达38.2%[5] - 平均视觉令牌保留量从512个降至78个 压缩率显著 证明视觉输入存在大量冗余信息[6] 行业地位 - 在所有参与对比的VLA加速方法中 该框架是唯一实现加速同时提升模型性能的方案[7] - 研究成果由理想汽车作为第一单位 联合清华大学车辆与运载学院及中科院计算所共同完成[1]