SemanticVLA
搜索文档
SemanticVLA:面向高效机器人操作的语义对齐剪枝与增强方法
具身智能之心· 2025-11-14 16:03
研究背景与问题 - 视觉-语言-动作模型在机器人操作领域取得显著进展,通过预训练视觉语言模型实现从语言到动作的端到端映射 [2] - 现有模型在动态、杂乱环境中部署时受两大瓶颈制约:视觉感知冗余导致计算效率低下,以及指令-视觉语义对齐表层化导致任务接地能力弱 [2][5] 核心创新点 - 提出语义引导双视觉剪枝器,通过指令感知的token过滤和几何感知的聚合,针对性解决视觉冗余问题,同时保留语义对齐 [3] - 设计语义互补分层融合器,跨编码器整合密集补丁特征与稀疏语义token,强化指令语义与空间结构的对齐 [5] - 构建语义条件动作耦合器,重构视觉到动作的映射路径,将7自由度动作重构为语义连贯的动作类型表示 [5] - 实现性能与效率的帕累托最优,在降低训练成本和推理延迟的同时,显著提升任务成功率 [5] 技术框架与设计 - 整体框架输入包含实时视觉观测、机器人本体感受状态和自然语言指令,通过两条并行路径处理视觉输入,形成"稀疏化-融合-动作映射"的端到端pipeline [4] - 语义引导双视觉剪枝器包含指令驱动剪枝器和空间聚合剪枝器,分别处理SigLIP和DINOv2编码器,实现语义对齐的视觉稀疏化 [6][7][10] - 语义互补分层融合器通过密集融合器和稀疏融合器双层机制整合两条视觉路径的互补特征,将视觉token压缩8-16倍 [10] - 语义条件动作耦合器将动作token数量从350减少至150,大幅降低推理开销 [11] 实验结果与性能 - 在LIBERO仿真基准测试中,SemanticVLA在空间推理任务成功率达98.6%,对象泛化任务达99.6%,目标理解任务达97.6%,长视距任务达94.8%,整体成功率97.7% [14] - 训练成本降低3.0倍(从11.7小时降至3.9小时),推理延迟降低2.7倍(从0.240秒降至0.089秒),吞吐量显著提升至89.9 Hz [14] - 在真实场景测试中,长视距任务成功率达77.8%,超越OpenVLA-OFT 22.2个百分点 [14] - 消融实验显示SD-Pruner的双剪枝组合使成功率提升2.1%-5.2%,稀疏化比率8×时实现性能与效率的最优平衡 [14][15]