视觉-语言-动作模型
搜索文档
华科&小米联合提出MindDrive:首个证实在线强化学习有效性的VLA框架......
自动驾驶之心· 2025-12-17 00:03
文章核心观点 - 华科与小米团队提出了一种名为MindDrive的新型自动驾驶视觉-语言-动作框架,该框架创新性地采用在线强化学习进行训练,有效解决了传统模仿学习方法面临的分布偏移和因果混淆等挑战,并在Bench2Drive基准测试中取得了优异的性能,驾驶得分达78.04分,成功率达55.09% [2][4][8][17][34] 背景与挑战 - 当前自动驾驶视觉-语言-动作模型主要依赖模仿学习,这会导致因果混淆和分布偏移,进而在闭环驾驶中产生不可逆的误差累积 [4] - 将在线强化学习应用于自动驾驶VLA模型面临连续动作空间中探索效率低下的难题 [2] - 现有强化学习应用分为两类:在动作空间使用离线强化学习,限制了模型与环境交互探索的能力;在语言空间使用在线强化学习,但难以将驾驶决策有效映射为类人的具体驾驶轨迹 [5] MindDrive框架设计 - MindDrive的核心架构包含两个共享视觉编码器和文本分词器、但配备不同LoRA参数的大语言模型:一个作为决策专家负责场景推理和驾驶决策,另一个作为动作专家负责将语言决策动态映射为可行驶轨迹 [2][8][11] - 该框架通过将轨迹级奖励反馈至推理空间,使模型能在有限的离散语言驾驶决策集合上进行试错学习,而非直接在连续动作空间中操作,从而平衡了最优决策、类人驾驶行为与探索效率 [2][8] - 训练过程分为两个阶段:首先通过模仿学习在决策专家推断的元动作与动作专家输出的轨迹之间建立一一对应关系,为在线强化学习提供高质量候选轨迹;随后利用在线强化学习对决策专家进行优化 [8][11][18] 在线强化学习实施方案 - 基于CARLA仿真器构建了面向VLA模型的在线闭环强化学习框架,定义了明确的任务成败信号,并将过程划分为数据收集和训练两个阶段 [8] - 采用稀疏奖励函数:成功到达目的地奖励+1,触发碰撞、闯红灯等预定义惩罚事件奖励-1,其他情况奖励为0 [25][26] - 采用近端策略优化算法优化策略,并引入KL散度损失作为正则化项以缓解强化学习微调阶段的灾难性遗忘问题 [28][30][32] - 通过视觉编码器预计算场景令牌作为紧凑状态表示,降低了内存开销,支持大批量训练,并将过程表述为标准马尔可夫决策过程 [8][15] 实验结果与性能 - 在Bench2Drive基准测试中,MindDrive取得了78.04的驾驶得分和55.09%的成功率 [2][17][34] - 即使采用轻量级的Qwen2-0.5B参数模型,其驾驶得分比相同参数规模的强基线模型高出5.15分,成功率高出9.26个百分点 [2][34] - 相较于仅使用模仿学习的版本,在线强化学习使驾驶得分提升2.19分,成功率提升5.79个百分点 [34][38] - 在视觉-语言-动作范式中,MindDrive性能与使用更大规模模型的最先进模仿学习方法相当,并超越了其他离线强化学习方法 [34][38] 消融实验发现 - 逐步引入碰撞、交通灯、路线偏离、停车等惩罚事件能持续提升模型性能,最终版本相比模仿学习基准成功率提升5.79个百分点 [36] - 在线强化学习过程中,将滚动次数设为2次能取得最佳性能,过多滚动会导致灾难性遗忘和性能下降 [37] - 采用KL散度正则化的PPO算法相比基础PPO和熵正则化PPO,能更有效地稳定训练,驾驶得分分别提升3.31分和2.33分 [40] - 使用大语言模型生成的元动作作为高层指令,相比使用导航指令,驾驶得分提升7.74分;在此基础上引入在线强化学习可进一步优化元动作选择 [41] 意义与贡献 - 据研究团队所知,这是首个证实在线强化学习对自动驾驶视觉-语言-动作模型有效性的研究,也是首个在仿真器中通过在线强化学习训练的基于VLA的自动驾驶模型 [2][8][44] - 该工作为自动驾驶领域带来了新的启发,展示了通过语言接口和在线试错来提升模型因果推理与决策鲁棒性的潜力 [8][44]
突破视觉-语言-动作模型的瓶颈:QDepth-VLA让机器人拥有更精准的3D空间感知
机器之心· 2025-11-26 07:07
文章核心观点 - 视觉-语言-动作模型在机器人操控领域潜力巨大,但在处理长时序或精细操作任务时,因缺乏三维空间几何感知能力而性能下降 [2] - 公司与中国科学院自动化研究所提出QDepth-VLA模型,通过量化深度预测作为辅助监督,增强模型的三维空间感知与推理能力,提升复杂操作场景下的操控精度 [2][8] - 该方法在仿真与真实环境测试中均显示出显著性能提升,为机器人从“可演示”迈向“可长期实际工作”提供了关键基础 [18][34][35] 技术挑战与现有方法 - 当前VLA模型面临的关键挑战是缺乏真实三维空间理解能力,尤其在精细化或长时程多步骤操作任务中难以建立稳定的三维几何关联 [5] - 行业主流探索方向包括直接注入3D特征、3D特征投影方法以及辅助3D视觉预测任务,但前两者存在模型复杂度高或信息损失的问题 [5] - 辅助3D视觉预测任务更具潜力,但直接使用像素级深度图作为监督可能引入噪声,削弱策略学习稳定性 [6] 方法设计 - QDepth-VLA的核心设计包括采用Video-Depth-Anything进行高精度深度图标注,从源头减少噪声和漂移 [11] - 通过VQ-VAE对深度图进行离散化编码,转化为结构化的深度token,以避免像素级深度回归的噪声干扰 [12] - 设计了独立的Depth Expert模块,基于Transformer架构预测深度token,在不干扰视觉-语言主干的前提下提供几何感知信号 [13] - 采用混合注意力机制在不同模态间调控信息流,防止深度噪声干扰动作生成,同时保持跨模态对齐能力 [14] - 整体训练目标整合了动作与深度两类监督信号,实现协同学习 [15] 实验验证 - 在Simpler仿真环境中,模型在WidowX250与Google Robot任务上,相比基础模型Open π0,平均成功率分别提升8.5%与3.7% [20] - 在LIBERO仿真任务中,相较于基于深度图输入的3D-CAVLA,QDepth-VLA平均提升约2.8% [26] - 真实环境实验使用单个Piper机械臂,QDepth-VLA在抓取香蕉等基础任务上成功率相比ACT基线提升约20%,在更具挑战的任务中也实现约10%的性能提升 [28][30] - 消融实验表明,移除深度监督导致平均成功率由68.5%降至65.6%,在需要精准三维对齐的任务中跌幅显著,验证了深度分支对立体空间感知的关键作用 [31][32] 总结与行业应用展望 - 实验结果表明,引入量化深度监督能在长程与精细操作任务中带来显著的成功率提升,三维几何先验对机器人稳定操控具有重要价值 [34] - 公司计划将QDepth-VLA的核心能力模块融入多产品序列,包括支持桌面级任务的CASBOT 02、工业与商服场景的CASBOT W1以及高精度操作的Handle-L1灵巧手 [35] - 行业未来研究方向将围绕面向未来的深度预测和更高效的深度表征学习展开,以支持更长时程的策略规划并提升推理稳定性 [35] - 该方法推动具身智能走向可规模化、可复制、可持续的真实应用阶段,构建从模型到部署的长期闭环能力 [36]
SemanticVLA:面向高效机器人操作的语义对齐剪枝与增强方法
具身智能之心· 2025-11-14 16:03
研究背景与问题 - 视觉-语言-动作模型在机器人操作领域取得显著进展,通过预训练视觉语言模型实现从语言到动作的端到端映射 [2] - 现有模型在动态、杂乱环境中部署时受两大瓶颈制约:视觉感知冗余导致计算效率低下,以及指令-视觉语义对齐表层化导致任务接地能力弱 [2][5] 核心创新点 - 提出语义引导双视觉剪枝器,通过指令感知的token过滤和几何感知的聚合,针对性解决视觉冗余问题,同时保留语义对齐 [3] - 设计语义互补分层融合器,跨编码器整合密集补丁特征与稀疏语义token,强化指令语义与空间结构的对齐 [5] - 构建语义条件动作耦合器,重构视觉到动作的映射路径,将7自由度动作重构为语义连贯的动作类型表示 [5] - 实现性能与效率的帕累托最优,在降低训练成本和推理延迟的同时,显著提升任务成功率 [5] 技术框架与设计 - 整体框架输入包含实时视觉观测、机器人本体感受状态和自然语言指令,通过两条并行路径处理视觉输入,形成"稀疏化-融合-动作映射"的端到端pipeline [4] - 语义引导双视觉剪枝器包含指令驱动剪枝器和空间聚合剪枝器,分别处理SigLIP和DINOv2编码器,实现语义对齐的视觉稀疏化 [6][7][10] - 语义互补分层融合器通过密集融合器和稀疏融合器双层机制整合两条视觉路径的互补特征,将视觉token压缩8-16倍 [10] - 语义条件动作耦合器将动作token数量从350减少至150,大幅降低推理开销 [11] 实验结果与性能 - 在LIBERO仿真基准测试中,SemanticVLA在空间推理任务成功率达98.6%,对象泛化任务达99.6%,目标理解任务达97.6%,长视距任务达94.8%,整体成功率97.7% [14] - 训练成本降低3.0倍(从11.7小时降至3.9小时),推理延迟降低2.7倍(从0.240秒降至0.089秒),吞吐量显著提升至89.9 Hz [14] - 在真实场景测试中,长视距任务成功率达77.8%,超越OpenVLA-OFT 22.2个百分点 [14] - 消融实验显示SD-Pruner的双剪枝组合使成功率提升2.1%-5.2%,稀疏化比率8×时实现性能与效率的最优平衡 [14][15]
西湖大学最新!RobustVLA:面向VLA模型的鲁棒性感知强化后训练方法(优于SOTA方案)
具身智能之心· 2025-11-08 04:00
文章核心观点 - 视觉-语言-动作模型在机器人操作中展现出强大的通用性,但在存在环境扰动的分布外场景中泛化能力受限 [1][5] - RobustVLA是一种轻量级的在线强化学习后训练方法,通过引入双正则化策略,旨在明确增强VLA模型对环境不确定性的鲁棒性 [1][4] - 实验结果表明,RobustVLA在观测扰动、动作扰动及联合扰动场景下的平均成功率均显著优于其他先进方法,验证了其有效性 [20][21][23] 当前行业痛点 - 尽管VLA模型得益于大规模多模态预训练,但在部署时面临观测噪声、传感器误差或执行扰动等不可避免的干扰,导致其在分布外场景中无法可靠泛化 [1][5] - 现有的基于强化学习的后训练方法主要强调奖励最大化,但忽视了应对环境不确定性的鲁棒性,使得模型在真实环境中易因微小扰动出现性能大幅下降 [1][5] RobustVLA的设计逻辑与理论基础 - 方法针对环境不确定性,重点考虑了观测噪声和动作噪声及其联合效应 [4] - 通过系统的鲁棒性理论分析,确立了误差放大界限、回报漂移控制以及鲁棒稳定性保证,并由此推导出正则化优化目标 [4][11][13][18] - 核心设计包括双正则化策略:雅可比正则化用于降低模型对观测噪声的敏感性,平滑性正则化用于在动作扰动下稳定策略 [7][8] - 整体优化目标融合了PPO的优势优化以及两种正则化项,由超参数α和β分别控制其强度 [9][10] - 采用自适应噪声调度机制,基于模型的平滑成功率动态调整注入的噪声强度,避免训练初期不稳定并逐步提升抗扰动能力 [15] 核心实验结果 - 在观测扰动场景下,RobustVLA和RobustVLA-C的平均成功率分别达到82.5%和82.2%,显著优于OpenVLA-OFT的80.6%和RIPT-VLA的80.8% [20] - 在动作扰动场景下,RobustVLA和RobustVLA-C的平均成功率均约为54.7%,超过OpenVLA-OFT的53.5%和ARFM的50.1% [21][22] - 在联合扰动场景下,RobustVLA-C以82.1%的平均成功率大幅领先,显示出在线强化学习方法与双正则化策略的协同优势 [23] - 迁移学习实验显示,RobustVLA在“开抽屉”和“放碗”等任务中,相较于零样本迁移分别提升8.0%和16.0%,展现出更强的分布外适应能力 [25] - 消融实验证明,移除任一种正则化都会导致性能下降,双正则化是鲁棒性提升的关键;可视化分析表明RobustVLA的观测表征在扰动下更稳定 [27]
VLA2:浙大x西湖大学提出智能体化VLA框架,操作泛化能力大幅提升
具身智能之心· 2025-10-24 00:40
文章核心观点 - 提出视觉-语言-动作智能体VLA² 通过调用多样化工具来增强VLA系统能力 旨在解决现有模型在处理完全陌生概念指令时无法迁移操作经验的问题 [1] - VLA²作为系统级集成框架 能够整合任务规划、网络搜索、目标检测等功能模块 从而突破现有VLA模型的执行能力边界 [1] 方法概述 - VLA²包含三大核心模块:初步信息处理、认知与记忆以及核心模块 [3] - 使用GLM-4V进行任务分解 将复杂指令拆解为可执行的子任务序列 [4] - 利用微调后的MM-GroundingDINO进行目标检测 提取物体与位置的边界框 [4] - 通过视觉路径对未知物体进行网页图像检索 生成关键词并构建视觉记忆 辅助模型重新识别 [4] - 通过语言路径将任务中未见的物体名称替换为模型已知的词汇 实现语义对齐 [4] 核心模块与实验验证 - 在原始的LIBERO Benchmark上 VLA²与SOTA的VLA模型进行对比 在Class 2类别中平均成功率为80.1% 略高于OpenVLA的76.5% [6] - 基于LIBERO环境通过更改物体纹理构建三个难度递增测试场景:Easy仅改变物体颜色、Medium替换为数据集中未出现的物体、Hard引入全新物体如茅台酒瓶和青花瓷碗 [7][10] - 在Hard场景中VLA²成功率大幅领先所有其他SOTA模型 达到76.2% 相比于单纯微调OpenVLA的32.0% 取得了44.2%的优势 [9] - 对VLA²三大关键机制进行消融实验 结果显示视觉掩码注入、语义替换机制和网页检索增强均对模型性能有显著贡献 [11] 总结与展望 - VLA²通过引入外部工具与记忆机制 成功扩展了VLA模型对未知物体的认知与操作能力 为开放世界中的机器人操作任务提供了可行的系统级解决方案 [12] - 未来将进一步探索其在真实世界中的泛化能力 并扩展其支持更多类型的工具与任务 [12]
缺数据也能拿SOTA?清华&上海AI Lab破解机器人RL两大瓶颈
量子位· 2025-09-26 02:08
文章核心观点 - 视觉-语言-动作模型是实现机器人在复杂环境中灵活操作的关键因素 [1] - 研究团队提出的SimpleVLA-RL框架解决了VLA模型训练的核心瓶颈,显著提升了性能、数据效率和泛化能力 [3][5] - 该框架在多个标准基准测试中实现了最先进的性能,并在真实世界任务中展现出强大的仿真到现实迁移能力 [5][19][28] 现有训练范式的瓶颈 - 现有主流训练流程依赖大规模预训练加有监督微调,面临数据稀缺性和泛化能力不足两大核心瓶颈 [8] - 高质量机器人操作轨迹数据采集成本高昂、规模受限,从根本上制约了模型的可扩展性 [8] - 有监督微调的学习过程高度依赖特定数据分布,在面对分布外任务、新环境或未见对象时性能显著下降 [9] - 将强化学习直接应用于VLA训练面临过程奖励设计复杂和与物理环境交互成本高的独特挑战 [9] SimpleVLA-RL框架设计 - 框架基于veRL扩展,是专门针对VLA模型特点优化的端到端在线训练方案 [12] - 采用交互式轨迹采样机制,模型直接输出动作token概率分布,在闭环中不断更新视觉观测和机器人状态 [13] - 使用极简的二元结果奖励建模,任务成功记为1失败记为0,奖励均匀分摊到整个轨迹的动作token上 [14] - 引入探索增强策略,包括动态采样、扩大GRPO裁剪区间和提高rollout采样温度,以避免轨迹同质化 [15][17] - 简化训练目标,移除KL散度正则项,不再依赖参考模型,减少内存消耗并鼓励新行为探索 [16] 性能提升与基准测试结果 - 在LIBERO基准测试中,将OpenVLA-OFT的平均成功率从91.0%提升至99.1%,长时序任务LIBERO-Long提升12.0个百分点 [21][22] - 在RoboTwin1.0基准上,四个任务平均成功率从39.8%提升至70.4%,其中"Blocks Stack"任务提升33.1个百分点 [23][24] - 在RoboTwin2.0基准上,覆盖短/中/长/超长时序12个任务,平均成功率从38.3%提升至68.8% [25][26] - 在"单轨迹有监督微调"场景下,OpenVLA-OFT的LIBERO平均成功率从48.9%提升至96.9%,长时序任务从17.3%提升至91.7% [5] 数据效率与泛化能力 - 仅需单个演示轨迹即可显著提升模型性能,大幅降低对大规模演示数据的依赖 [5][19] - 在未见任务测试中,SimpleVLA-RL所有未见任务成功率均提升,其中LIBERO-Object的"Unseen Task 2"提升36.5个百分点 [26] - 与有监督微调在未见任务上出现"灾难性遗忘"相比,强化学习能学习通用技能而非过拟合特定数据 [26] 仿真到现实迁移能力 - 仅使用仿真数据训练,在真实机器人测试中平均成功率从17.5%提升至38.5%,"Stack Bowls"任务提升32个百分点 [28][29] - "Pick Bottle"任务从完全失败实现14%成功率,证明强化学习能增强仿真模型的真实环境适配性 [28][29] 自主探索与新策略涌现 - 训练过程中模型展现出自主探索能力,涌现出新的操作策略,如通过"推动"替代"抓取"的Pushcut现象 [10][29] - 结果奖励不约束具体动作模式,允许模型在满足任务目标前提下自主选择更优行为路径 [30] - 这一现象证明强化学习能让VLA模型超越人类演示局限,为未来自主自适应模型研发提供新范式 [31]
基于313篇VLA论文的综述与1661字压缩版
理想TOP2· 2025-09-25 13:33
VLA模型综述核心观点 - VLA模型的出现标志着机器人技术从传统基于策略的控制向通用机器人技术的范式转变,将视觉语言模型从被动的序列生成器重构为能够在复杂动态环境中进行主动操作和决策的智能体[1][12] - 该综述对VLA方法进行清晰的分类和系统性的回顾,基于300多项最新研究,将VLA方法主要分为四类:基于自回归、基于扩散、基于强化学习以及混合与专用方法[1][2][12] - VLA模型通过整合视觉编码器的表征能力、大语言模型的推理能力、强化学习与控制框架的决策能力,有望弥合"感知-理解-动作"的鸿沟,成为实现通用具身智能的核心路径[38][39] VLA方法分类与特点 基于自回归的模型 - 核心思想是将动作序列视为时间依赖过程,逐步生成动作,通过统一的多模态Transformer实现跨任务的泛化[4][46] - 创新点包括结合大语言模型进行链式思考和分层规划处理长时程和复杂任务,直接将语言指令映射为运动轨迹并通过视频预训练增强时间建模能力[4][47][48] - 采用层级规划、动态推理、量化和并行解码等技术减少计算冗余和延迟,典型模型包括Gato、RT-1/RT-2、PaLM-E等[4][48] 基于扩散的模型 - 核心思想是将动作生成视为一个条件去噪过程,能够对多模态的动作分布进行建模,将策略学习重新解释为视频生成[5][59] - 利用几何感知方法确保动作的物理一致性,利用Transformer统一处理视觉、语言和动作等异构模态实现灵活的目标条件化[5][63] - 出现轻量化设计以降低训练成本,发展出双系统/三系统等认知启发式架构提升任务性能和可解释性,典型模型包括SE(3)-DiffusionFields、Dita等[5][63][67] 基于强化学习的模型 - 核心思想是整合视觉语言模型与强化学习,利用视觉和语言输入在交互式环境中生成上下文感知的动作[6][72] - 利用视觉语言模型从人类演示中学习奖励代理简化奖励工程,提出约束学习对齐机制防止高风险行为同时不牺牲任务性能[6][73] - 结合离线学习和在线学习实现安全高效的训练,采用量化、剪枝和知识蒸馏等方法压缩模型提高推理速度并减少内存占用[6][73] 混合与专用方法 - 混合架构结合不同范式,利用扩散生成平滑的轨迹同时保留自回归模型的推理能力,典型代表如HybridVLA[7][80] - 从早期的特征拼接发展到显式建模几何、功能可见性和空间约束的3D感知架构,如CLIPort、3D-VLA等[7][80][82] - 将VLA框架扩展到自动驾驶、人形机器人控制和图形用户界面交互等特定领域,通过大规模多模态数据集和可扩展架构构建通用机器人智能体[7][80][83] 数据集与仿真平台 - VLA模型的发展严重依赖高质量数据集,真实世界数据集如Open X-Embodiment整合了来自21个机构的22个机器人数据集,包含527项技能和160,266个任务[8][35][99] - 模拟数据集如ALFRED、RLBench和CARLA为大规模、可控和安全的模型训练与评估提供了环境,模拟器如THOR、Habitat、MuJoCo和Isaac Gym为开发和评估智能机器人在多样化交互环境中的能力提供了平台[8][35][41] - 自动驾驶领域的数据集提供包含相机图像、激光雷达点云、雷达信号和高清地图在内的多模态传感器数据,但大多数公开数据集是在开环场景下采集的,主要反映正常驾驶行为[101][102] 核心挑战与未来机遇 - 核心挑战包括数据稀缺性、架构异构性、实时性约束和评估局限性,真实世界机器人交互数据的规模和多样性仍然不足,大规模Transformer架构的推理速度严重限制了其在需要毫秒级响应的真实机器人上的应用[9][43] - 未来机遇包括实现语言、视觉和行动的深度耦合使VLA演变为能够联合建模环境、推理和交互的"世界模型",发展能够基于因果定律进行探索和验证的模型[10][39] - 结合高保真模拟和合成数据生成构建超大规模轨迹数据集,建立风险评估、可解释性和问责制的标准化框架,将VLA从实验室工具转变为社会中值得信赖的合作伙伴[10][39]
全新范式!LLaDA-VLA:首个基于大语言扩散模型的VLA模型
具身智能之心· 2025-09-12 00:05
技术突破 - 首次将掩码扩散模型引入机器人动作生成领域 基于预训练多模态大语言扩散模型微调 支持并行化动作轨迹预测[5] - 提出局部化特殊Token分类技术 将连续动作空间离散化为32个动作Token 仅在动作相关Token集合计算交叉熵损失 非动作Token被屏蔽[8][12] - 开发层级化动作结构解码策略 显式建模动作间与动作内依赖关系 采用先粗后细生成方式提升轨迹连续性[9][13] 性能表现 - 在SimplerEnv环境平均成功率55.5% 超越CogACT模型4.2个百分点[14][21] - 在CALVIN环境平均任务长度4.01 超越OpenVLA模型0.74[14][21] - 真实机械臂WidowX测试平均成功率58% 较π0模型提升23个百分点 较CogACT提升28个百分点[15][21] 模型架构 - 输入为自然语言指令和场景RGB图像 输出多步离散动作序列 每步动作由7个Token表示三维位置变化 三维旋转变化和夹爪状态[7] - 采用SigLIP-2视觉编码器提取特征 基于LLaDA扩散式大语言模型融合多模态信息 通过投影器实现跨模态统一[10] - 通过动作级置信度估计和重采样机制 优先保留高置信度动作 对低置信度动作进行Token级精细重采样[16] 实验验证 - 在SimplerEnv高拟真仿真平台测试精准操作任务 在CALVIN长时序仿真评估多步骤任务 使用ABC-D设置验证泛化能力[17] - 消融实验显示单独使用LSC技术使平均任务长度提升0.79 叠加HAD技术后进一步提升0.58至4.01[18] - 真实机器人测试包含8个操作任务 涵盖域内任务如"将草莓放入碗中"和域外任务如"将立方体放入未知容器"[17]