视觉-语言-动作(VLA)模型

搜索文档
AnywhereVLA:在消费级硬件上实时运行VLA
具身智能之心· 2025-09-29 02:08
点击下方 卡片 ,关注" 具身智能 之心 "公众号 作者丨 Artem Voronov等 编辑丨具身智能之心 本文只做学术分享,如有侵权,联系删文 >> 点击进入→ 具身智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要的。 一、核心背景与目标 当前移动操作技术正从封闭、结构化的工作单元,向开放、非结构化的大型室内环境拓展——机器人需在陌生杂乱空间中探索,与多样物体及人类互动,同时响 应自然语言指令完成任务(如家庭服务、零售自动化、仓储物流等场景)。但现有方案存在明显瓶颈: 为此,AnywhereVLA提出模块化架构,核心是融合经典导航的鲁棒性与VLA模型的语义理解能力,实现 未知大型室内环境下的语言驱动拾取-放置任务 ,且能在 消费级硬件上实时运行。 二、相关工作回顾:现有方案的优势与不足 1. VLA模型与轻量化优化 2. 扩散Transformer与导航相关方案 三、AnywhereVLA架构:四大核心模块与工作流 AnywhereVLA以自然语言指令为输入,通过四大模块协同输出低级别控制指令(驱动基座车轮与机械臂关节),整体 ...
从300多篇工作中,看VLA在不同场景下的应用和实现......
具身智能之心· 2025-09-25 04:00
点击下方 卡片 ,关注" 具身智能 之心 "公众号 编辑丨具身智能之心 本文只做学术分享,如有侵权,联系删文 >> 点击进入→ 具身智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要的。 兰州大学、中科院、新加坡国立等单位联合出品的一篇最新survey! Pure Vision Language Action (VLA) Models: A Comprehensive Survey 论文链接:https://arxiv.org/pdf/2509.19012 视觉-语言-动作(Vision Language Action, VLA)模型的出现,标志着机器人技术从传统基于策略的控制向通用机器人技术的范式转变,同时也将视觉- 语言模型(Vision Language Models, VLMs)从被动的序列生成器重新定位为在复杂、动态环境中执行操作与决策的主动智能体。 机器人技术长期以来一直是科学研究的重要领域。在历史发展进程中,机器人主要依赖预编程指令和设计好的控制策略来完成任务分解与执行。这些 方法通常应用于简单、重复性的任务,例如工厂 ...
深度综述 | 300+论文带你看懂:纯视觉如何将VLA推向自动驾驶和具身智能巅峰!
自动驾驶之心· 2025-09-24 23:33
视觉-语言-动作(Vision Language Action, VLA)模型的出现,标志着机器人技术从传统基于策略的控制向通用机器人技术的范式转变,同时也将视觉-语言模型(Vision Language Models, VLMs)从被动的序列生成器重新定位为在复杂、动态环境中执行操作与决策的主动智能体。 为此,兰州大学、中科院和新加坡国立大学的团队深入探讨了先进的VLA方法,旨在提供清晰的分类体系,并对现有研究进行系统、全面的综述。文中全面分析了VLA 在不同场景下的应用,并将VLA方法划分为多个范式: 自回归、扩散模型、强化学习、混合方法及专用方法 ;同时详细探讨了这些方法的设计动机、核心策略与实现方 式。 此外,本文还介绍了VLA研究所需的基础数据集、基准测试集与仿真平台。基于当前VLA研究现状,综述进一步提出了该领域面临的关键挑战与未来发展方向,以推动 VLA模型与通用机器人技术的研究进展。通过综合300多项最新研究的见解,本综述勾勒出这一快速发展领域的研究轮廓,并强调了将塑造可扩展、通用型VLA方法发 展的机遇与挑战。 论文标题:Pure Vision Language Action (VLA) M ...
清华联手理想提出LightVLA:剪掉冗余token,推理速度提升38%!
具身智能之心· 2025-09-18 00:03
研究背景与核心挑战 - 视觉-语言-动作(VLA)模型是机器人具身智能的核心技术,能将视觉信息和语言指令直接转化为可执行的机器人动作,在复杂操作(如物体抓取、长程规划)中展现出强大能力 [2] - 这类模型存在关键瓶颈:视觉Token的计算冗余,VLA模型通常需要处理数百个视觉Token(如OpenVLA-OFT使用512个),而注意力机制的计算复杂度随Token数量呈平方增长,导致模型在边缘设备(如家用机器人、自动驾驶)上难以实现实时部署 [2] 现有优化方案的局限 - 效率与性能的trade-off:多数Token剪枝方法(如EfficientVLA、VLA-Cache)为提升效率会固定保留Token数量,导致关键语义信息丢失,最终牺牲性能 [3] - VLM剪枝方案不兼容:视觉-语言(VL)模型的剪枝方法(如SparseVLM、FastV)聚焦全局语义,而VLA模型需关注局部语义(如机械臂交互的物体),直接迁移会导致性能骤降 [3] - 部署兼容性差:基于注意力分数的剪枝方法(如SP-VLA、FlashVLA)依赖LLM的中间注意力输出,无法适配vLLM、SGLang等主流推理框架,难以落地 [3] LightVLA框架设计 - 核心逻辑是让模型通过微调自主学习筛选任务相关的视觉Token,而非依赖人工设定的剪枝比例 [4] - 设计围绕VLA模型的三模块结构(视觉编码器、LLM backbone、action head)展开,仅针对视觉Token进行剪枝(保留[CLS]Token以维持全局信息) [4] - 整体流程分为查询生成-Token评分-Token选择三阶段 [4] 查询生成阶段 - 通过视觉Token与语言Token的交叉注意力生成查询,公式为 $$Q=s o f t m a x\left({\frac{H_{v}H_{l}^{T}}{\sqrt{D}}}\right)H_{l}$$ [7] - 这一设计的核心逻辑是视觉Token的有用性由其与指令的关联性决定,且无需额外训练参数,避免增加模型复杂度 [7] Token评分阶段 - 每个查询会对所有视觉Token进行有用性评分,本质是计算查询与视觉Token的相似度,公式为 $$S={\frac{Q H_{v}^{T}}{\sqrt{D}}}$$ [10] - 评分越高说明该Token与任务的关联性越强 [10] Token选择阶段 - 采用改进版Gumbel-softmax解决传统argmax操作不可微的问题,让剪枝过程可端到端训练 [11] - 注入Gumbel噪声:为评分矩阵添加均匀分布噪声,噪声上限随训练迭代逐渐衰减 [11] - 软评分与硬选择结合:通过硬选择+软评分-停止梯度的软评分实现可微性 [12] - 推理阶段无需注入噪声,直接通过argmax选择Token,确保高效部署 [13] 实验验证结果 - 在LIBERO基准数据集上验证性能,平均成功率97.4%,较基础模型OpenVLA-OFT(94.5%)提升2.9% [16] - 在长程任务(LIBERO-Long)上成功率94.6%,远超同类剪枝方法(如SP-VLA 51.4%、VLA-Cache 52.8%) [16] - 平均仅保留78个视觉Token(仅为OpenVLA-OFT的15.2%),证明视觉Token中存在大量冗余 [16] - 计算量(FLOPs)降低59.1%,延迟降低38.2% [18] - 对比基础模型OpenVLA-OFT:虽成功率94.5%,但需处理512个Token,计算量是LightVLA的2.4倍 [18] 消融实验 - 噪声衰减的作用:无噪声或固定噪声的变体,平均成功率均降至97.0%,且固定噪声变体保留Token数增至112个 [20] - Token筛选的准确性:对筛选后的Token进行加随机Token(2k)或减10%Token(0.9k),成功率均下降(96.8%/96.6%) [20] LightVLA*变体 - 引入额外可训练参数(查询头),通过可学习查询引导Token筛选 [22] - 设计了两种部署位置:视觉编码器后剪枝和LLM早期层剪枝 [22] - 平均成功率达96.2%-97.0%,略低于LightVLA(97.4%) [23] - LLM早期层剪枝在长程任务(Long)上表现更优(94.8%),说明语言语义能进一步引导Token筛选 [23] 与MoE技术的差异 - 目标差异:LightVLA以提升任务性能为核心,筛选与任务强相关的视觉Token;MoE以均衡专家负载为核心,将任务分配给不同专家 [28] - 行为差异:LightVLA的Token选择是性能驱动的非均匀筛选(关键物体Token被优先保留);MoE的专家选择是负载驱动的均匀分配 [28]
SimpleVLA-RL:突破 VLA 模型训练瓶颈,RL实现端到端在线训练
自动驾驶之心· 2025-09-15 03:56
以下文章来源于具身智能之心 ,作者Haozhan Li等 具身智能之心 . 与世界交互,更进一步 作者丨 Haozhan Li等 编辑丨具身智能之心 本文只做学术分享,如有侵权,联系删文 >> 点击进入→ 具身智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要的。 点击下方 卡片 ,关注" 具身智能 之心 "公众号 想让机器人灵活干活,视觉-语言-动作(VLA)模型是关键,但现在的训练方法太 "娇气" 了!靠监督微调(SFT)训练,不仅要海量人类操控轨迹数据(采集贵 到离谱还难扩规模),遇到没见过的任务或环境,性能直接 "翻车"。 好在大推理模型领域给了新灵感——强化学习(RL)光靠任务结果就能提升推理能力,那能不能用在 VLA 模型上?可难题也不少:传统机器人 RL 要手工调奖 励,没法大规模用;VLA 还得和环境反复交互,比 LLM 生成文本麻烦多了。 别慌,SimpleVLA-RL 框架来救场了!它基于 veRL 优化,专门适配 VLA 的轨迹采样、并行训练,效果直接拉满:在 LIBERO、RoboTwin 等基准测试里拿了 ...
Galaxea 团队推出:大规模高质量开放世界数据集与G0双系统VLA模型
具身智能之心· 2025-09-04 01:04
核心观点 - Galaxea开放世界数据集是首个在真实人类生活与工作环境中采集的大规模机器人行为数据集 解决现有数据集场景单一、本体不一致、标注粗糙的问题 [3][5] - G0双系统框架通过视觉语言模型进行多模态规划 并与视觉-语言-动作模型协同实现细粒度执行 在桌面操作、少样本学习和长程移动操作等基准测试中表现优异 [3][5] - 三阶段课程训练策略包括跨实体预训练、单实体预训练和任务特定后训练 单实体预训练阶段与Galaxea数据集的结合对实现强劲性能具有关键作用 [3][35][39] Galaxea开放世界数据集 - 数据采集通过统一机器人本体Galaxea R1 Lite移动双臂机器人进行 具备23个自由度 搭载头部立体RGB相机与手腕RGB-D相机 负载能力达5kg [3] - 在11个物理站点的50个独特场景中采集 涵盖住宅、零售、餐饮、办公四大核心场景 住宅场景占比最高达50.8% 办公场景占33.2% [6][12] - 总计500小时数据、10万条演示轨迹 覆盖150类任务、1600种物体、58种操作技能 并以2Hz频率标注细分子任务指令 [8] - 操作中"仅手臂""躯干+手臂""全身协同"的动作占比均衡 技能分布呈长尾特征 既包含高频基础动作也包含特殊技能 [11] - 相较于BridgeData V2、Open-X-Embodiment等主流数据集 具有完全开放世界场景优势 数据采集无预设脚本 还原人类真实生活中的任务场景 [15][17] G0双系统框架设计 - 设计灵感来自Kahneman的"双系统理论" System 2负责规划 System 1负责反应 两者异步运行 G0-VLM以15Hz规划 G0-VLA以200Hz控制 [19] - G0-VLM接收人类高层指令并分解为可执行的子任务序列 G0-VLA接收子任务指令、实时视觉观察与机器人本体状态 生成连续动作序列实现闭环控制 [21] - 采用三阶段训练策略:阶段1跨本体预训练使用1000小时Open-X-Embodiment数据、500小时Galaxea数据集和200小时内部未标注数据 [27] - 阶段2单一本体预训练使用Galaxea数据集的完整标注数据 阶段3任务特定后训练每个任务仅用最多100条高质量轨迹 [28][29] 性能评估结果 - G0-Full模型表现最优 平均任务进度得分最高 在"拾取-放置"类任务中优势显著 [39] - 单一本体预训练不可或缺 G0-Stage2在语言跟随、动作一致性、全身控制上表现优于G0-Stage1 数据量400小时性能优于200小时 [39] - 在少样本迁移场景中 G0-Stage2系列模型任务进度得分显著高于G0-Scratch与G0-Stage1 跨本体预训练无优势 [40] - G0-VLM准确率领先主流VLM模型50%以上 在整理床铺上准确率达78.2% 桌面整理达83.3% [42][47] - G0-Stage2显著提升本体控制能力 在"走向床铺""躯干抬起抓被子"等技能上得分远超G0-Stage1与基线模型 [46]
自驾VLA新SOTA!阿里AutoDrive-R²:自反思思维链&物理奖励,突破VLA泛化瓶颈
自动驾驶之心· 2025-09-03 23:33
核心观点 - 阿里巴巴和昆士兰大学团队提出AutoDrive-R²框架 通过结合思维链处理和强化学习 显著提升自动驾驶系统的推理能力和轨迹规划质量 [2][8][10] - 该框架采用两阶段训练方法 包括监督微调SFT和基于物理奖励的GRPO强化学习 在nuScenes和Waymo数据集上实现最先进性能 [17][35][37] - 创新性构建nuScenesR²-6K数据集 包含6000个样本 采用四步逻辑链结构 首次在自动驾驶领域同时激发模型推理与自反思能力 [8][19][20] 技术框架 - 第一阶段监督微调使用nuScenesR²-6K数据集 通过四步逻辑链(可视化→计算→逻辑→反思)建立基础感知能力 [19][20][43] - 第二阶段采用GRPO算法 每个输入生成6个候选响应 通过基于物理的奖励函数优化轨迹规划 [21][33][45] - 奖励函数整合空间对齐 车辆动力学和时间平滑性约束 确保轨迹的物理可行性和安全性 [26][28][29] 性能表现 - 在nuScenes数据集上 7B模型将平均L2误差降至0.19米 相比基准模型Qwen2.5-VL-7B的1.45米降低86.9% [35][43] - 在Waymo数据集零样本测试中 相比EMMA+方法降低33.3%误差 相比Qwen2-VL-72B基准降低90.7%误差 [37][38] - 3B模型同样表现优异 平均L2误差0.49米 证明框架对小规模模型的有效提升 [35][39] 关键创新 - 基于物理的奖励框架包含四个组件:空间对齐奖励(公式4) 转向角偏差惩罚(公式5) 速度约束(公式6)和时间平滑性惩罚(公式7) [27][28][29] - 自反思机制作为第四步推理 通过反向验证结论提升模型鲁棒性和答案正确性 [20][43] - GRPO算法采用候选响应间成对比较机制 简化架构并降低计算开销 [21][25] 实验验证 - 消融实验证明四步逻辑链的必要性:移除自反思使误差上升21.1% 移除完整推理结构使误差上升31.5% [43] - 奖励组件缺省实验显示空间对齐最关键 其缺失使误差升至0.53米 转向角 速度和时间组件缺失分别导致误差上升10.5% 15.8%和26.3% [44] - 候选响应数量实验表明6个为最优平衡点 达到0.19米最低误差 超过6个后性能提升减弱 [45][46] 行业意义 - 解决现有VLA方法两大局限:物理不可行轨迹生成和复杂场景推理能力不足 [8][9] - 为端到端自动驾驶提供新范式 实现感知 推理和规划的联合优化 [6][11][47] - 推动视觉-语言-动作模型在自动驾驶领域的实际应用部署 [7][12][47]
Galaxea 团队推出:大规模高质量开放世界机器人数据集与G0双系统VLA模型
具身智能之心· 2025-09-03 03:23
数据集核心特征 - Galaxea开放世界数据集是在真实人类生活与工作环境中记录的大规模多样化机器人行为集合 采用统一机器人实体采集并配有精确子任务级语言标注 [2] - 数据集覆盖11个物理站点的50个独特场景 涵盖住宅 零售 餐饮 办公四大核心场景 其中住宅场景占比50.8% 办公场景占比33.2% [6][12] - 总规模达500小时数据 10万条演示轨迹 覆盖150类任务 1600种物体 58种操作技能 并以2Hz频率标注细分子任务指令 [8] 技术框架设计 - G0双系统框架耦合视觉语言模型(G0-VLM)与视觉-语言-动作模型(G0-VLA) 分别以15Hz和200Hz频率异步运行 平衡规划合理性与执行实时性 [19][21] - 采用三阶段课程训练策略:跨实体预训练获取通用知识 单实体预训练适配目标机器人 任务特定后训练精修复杂技能 [21][27][28][29] - 训练数据包含1000小时Open-X-Embodiment数据 500小时Galaxea数据集及200小时内部未标注数据 [27] 性能表现评估 - G0-VLM在指令准确率上显著领先主流模型 整理床铺任务达78.2% 桌面整理达83.3% 较基线模型提升超50个百分点 [42][47] - 单一本体预训练阶段对性能提升至关重要 G0-Stage2-400h在语言跟随和动作一致性上表现最优 且数据规模与性能呈正相关 [35][39] - 在少样本迁移场景中 G0-Stage2系列仅用20条轨迹微调即实现显著性能提升 而跨本体预训练显示负迁移效应 [38][40][46] 差异化竞争优势 - 相较BridgeData V2等数据集 具备完全开放世界场景采集 单一本体一致性和细分子任务标注三大核心优势 [15][17][18] - 行为模式覆盖仅手臂 躯干+手臂 全身协同操作 技能分布呈长尾特征 既包含基础拾取动作也涵盖打开冰箱等特殊技能 [11] - 物体覆盖家电 日用品等10余大类 对难操作物体采用高保真复制品 任务时长和复杂度呈多样化分布 [12]
机器人操控新范式:一篇VLA模型系统性综述 | Jinqiu Select
锦秋集· 2025-09-02 13:41
文章核心观点 - 基于大型视觉语言模型(VLM)的视觉-语言-动作(VLA)模型是机器人操控领域的变革性范式,通过语义理解和推理能力显著提升机器人在非结构化环境中的泛化执行能力 [1][4][5] - 哈尔滨工业大学(深圳)团队首次提出系统性分类法,将VLA模型划分为单体模型(Monolithic Models)和层级模型(Hierarchical Models),以解决架构多样性和研究碎片化问题 [1][6][8] - VLA模型与强化学习、免训练优化、人类视频学习和世界模型等前沿技术结合,未来方向包括记忆机制、4D感知和多智能体协作等 [1][58][91] 背景与演进 - 传统机器人操控方法依赖预定义任务规范,在非结构化环境中泛化能力有限,而VLM通过海量图文预训练跨越视觉与语言的语义鸿沟 [4][9][11] - 现代VLM(如LLaVA1.5、Qwen-VL)采用三组件架构:视觉编码器、投影器和大型语言模型,统一处理多模态任务并支持高级推理能力 [9][10] - VLA模型将机器人动作处理为文本token,与语言输出联合训练,实现语义理解能力飞跃(如RT-2相比RT-1在未见过指令任务上成功率显著提升) [12][13] 单体模型(Monolithic Models) - 单系统架构(如RT系列、OpenVLA)统一处理视觉、语言和动作生成,通过自回归解码生成动作token,参数量达70亿级别 [14][17][18] - 双系统架构(如π0、CogACT)分离快速反应的动作专家与慢速推理的VLM骨干,通过级联或并行方式协作,推理速度提升3倍以上 [15][35][30] - 性能增强方向包括3D/4D感知(如SpatialVLA、TraceVLA)、多模态融合(触觉、音频)和推理优化(动态token剪枝、1-bit量化) [21][23][31] 层级模型(Hierarchical Models) - 规划器+策略架构明确解耦高层规划与底层执行,生成可解释中间输出(如关键点、程序代码),支持长时程任务 [43][44][53] - 仅规划器方法(如Chain-of-Modality)生成可执行程序或文本指令,而规划器+策略模型(如HiRobot)通过扩散策略执行原子命令 [44][49][53] - 基于关键点的方法(如HAMSTER、RoboPoint)预测交互区域或轨迹路点,结合优化器生成动作,在7个泛化轴向上成功率提升20% [45][51][80] 前沿领域结合 - 强化学习通过密集奖励信号(如VLA-RL的RPRM模型)和离线-在线混合训练(如ReWiND)解决长时任务稀疏奖励问题 [59][60][61] - 免训练方法(如FlashVLA、EfficientVLA)通过触发机制和token复用跳过冗余计算,实现最高5倍训练加速 [62][63][64] - 人类视频学习(如UniVLA、LAPA)对齐人类-机器人交互特征,世界模型集成(如WorldVLA)通过预测未来状态优化动作规划 [65][66][68] 模型特性 - 多模态融合通过共享嵌入空间实现视觉、语言和动作的token级对齐,支持深度、触觉等模态扩展(如PointVLA集成点云数据) [69][71][73] - 指令遵循能力支持语义锚定(如ChatVLA-2理解白板数学问题)和思维链推理(如CoT-VLA预测视觉子目标) [74][76][75] - 跨领域泛化能力显著,如DexVLA实现跨机器人形态技能迁移,π0.5在分布外数据上成功率超90% [78][79][80] 数据集与基准 - 真实世界数据集(如OXE)整合22个机器人平台超100万演示,覆盖500多种技能,但长尾分布数据仍不足 [82][83][84] - 仿真基准(如BEHAVIOR、ALFRED)支持多阶段语言指令任务,CALVIN提供无约束指令下的长时程行为学习 [85][86] - 人类行为数据集(如Ego4D、EPIC-Kitchens)提供829小时密集手部追踪视频,支持精细化操作学习 [87][88] 未来方向 - 需开发融合真实世界复杂性和长期任务评估的基准,包含子任务成功率和抗干扰性等指标 [91] - 技术突破重点包括4D感知(整合深度与时间演化)、移动操作(导航与抓取协同)和多智能体协作(共享世界模型) [93][94][96] - 模型效率优化需平衡计算资源与实时需求,通过动态token剪枝和硬件友好量化降低延迟 [98]
还在卷端到端模型?Embodied-R1另辟蹊径:用“指向”+强化学习实现SOTA性能!
具身智能之心· 2025-09-02 00:03
点击按钮预约直播 点击下方 卡片 ,关注" 具身智能 之心 "公众号 >>直播和内容获取转到 → 具身智能之心知识星球 通用具身智能的发展长期受限于一个核心难题:"视觉到行动的鸿沟"(seeing-to-doing gap)。这一鸿沟源于两大挑战: (a) 数据稀缺 ,有限的机器人数据难以将语言和视觉与物理动作充分关联; (b) 形态异构 ,多样的机器人形态阻碍了知识的有效迁移。 尽管现有的视觉-语言-动作(VLA)模型在模仿专家演示方面表现出色,但在新环境中,其性能往往会急剧下降。无论是端到端模型存在的知识遗忘问题,还是 模块化模型易于出现级联故障的弊端,都未能有效解决这一根本性问题。如何让机器人真正"理解"它所看到的,并将其转化为精准的物理操作,是推动通用机器 人发展的关键。 在机器人研究中,如何让"看到的"顺利转化为"做到的",一直是一个难题。虽然近年来的视觉语言模型(VLM)和视觉语言动作模型(VLA)大幅提升了机器人 理解场景与指令的能力,但当机器人真正要操作物体时,性能常常大打折扣。VLM本身具有强大的环境感知和视觉理解能力,但基于VLM进行继续训练的端到 端VLA却几乎完全失去了零样本的操作能力 ...