VLA-Adapter:以0.5B参数实现机器人智能新高度,还无需预训练
具身智能之心·2025-09-17 03:14

文章核心观点 - VLA-Adapter模型在机器人视觉-语言-行动领域实现突破,以仅0.5亿参数的轻量化设计,在性能上媲美甚至超越70亿参数的顶尖模型,同时大幅降低训练和部署成本 [4][11] - 该模型的核心创新在于提出了一种全新的桥接范式,通过高效的桥接注意力机制,解决了传统VLA模型对大规模预训练模型和高计算成本的依赖问题 [11][12] - 在多个基准测试中,VLA-Adapter展现出卓越的性能和强大的泛化能力,为机器人技术的实际应用和普及降低了门槛 [19][21][28] 技术方案与创新 - VLA-Adapter采用基于Qwen2.5-0.5B训练的Prismatic VLM作为骨干网络,参数仅0.5亿,无需机器人数据预训练 [11] - 其创新的桥接注意力机制包含两次交叉注意力和一次自注意力,通过可学习参数动态调节特征注入比例,确保训练稳定性和性能优化 [12][14] - 模型设计关键发现包括:使用VLM的中层特征更优、动作查询的深层特征更具优势、全层特征具有更好普适性,从而避免了选择最优特征层的繁琐过程 [18] 性能与效率优势 - 训练成本极低,仅需8 GPU·小时,是OpenVLA-OFT模型(304 GPU·小时)的1/38,可在单张消费级GPU上完成 [3][11][15] - 训练VRAM占用大幅降低至24.7GB,仅为对比模型的0.4倍;推理吞吐量高达219.2Hz,延迟仅0.0365秒,是对比模型的3倍 [3][15] - 在LIBERO基准测试中平均成功率达到97.3%,超越70亿参数的OpenVLA-OFT(97.1%);在CALVIN ABC→D零样本泛化任务中平均任务完成长度达4.42,表现最佳 [3][19][21][22] 实际应用潜力 - 模型的高推理速度和低延迟使其特别适合需要实时响应的场景,如自动驾驶、物流机器人和交互式服务机器人 [28] - 轻量化设计降低了硬件需求,使中小型研究机构和企业能够更轻松地开发和部署VLA模型,推动了机器人技术的普及 [11][28] - 研究团队提供了开源项目页面,方便开发者获取模型详情和代码,促进了技术的共享与创新 [28]