视觉-语言-行动(VLA)模型

搜索文档
VLA-Adapter:以0.5B参数实现机器人智能新高度,还无需预训练
具身智能之心· 2025-09-17 03:14
>> 点击进入→ 具身智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要的。 点击下方 卡片 ,关注" 具身智能之心 "公众号 | | OpenVLA-OFT (soTA) | | VLA-Adapter (Ours) | | --- | --- | --- | --- | | Backbone ↓ | 7B | 0.5в | 1/14× | | Fine-tuning Cost ↓ | 304GPU·h | 8GPU.h | 1/38× | | Training VRAM (8 batch)↓ | 62GB | 24.7GB | 0.4× | | Throughput (8-dim chunk) ↑ | 71.4Hz | 219.2Hz | 3× | | Performance (LIBERO) ↑ | 97.1% | 97.3% | Maintain | | VLM # / 3 | Bridge | Policy | Frozen | | | | | ు Trainable | | / IRGB L Instuction | A ...