分层VLA模型
搜索文档
最新分层VLA模型:使用失败的演示数据,也能优化VLA模型!
具身智能之心· 2025-12-05 16:02
文章核心观点 - 提出了一种名为VINE的新型分层视觉-语言-动作模型 该模型创新性地将机器人操作数据中的失败经验转化为结构化学习信号 通过失败感知的树搜索规划机制 显著提升了模型在复杂和未见场景中的任务成功率和鲁棒性 [2][3][4] 现有VLA模型的局限与研究目标 - 传统视觉-语言-动作模型依赖人类遥控收集的成功演示数据训练 而数据采集过程中产生的大量失败尝试常被当作噪声丢弃 [2] - 这些失败数据蕴含着政策脆弱点的关键信息 单纯依赖成功数据的模型难以应对复杂环境中的不确定性 在未见场景中鲁棒性大幅下降 [2] - 研究目标是构建分层VLA模型 将失败经验转化为结构化学习信号 在不改变机器人核心技能的前提下 提升复杂操作任务的成功率和鲁棒性 [3] 模型架构与核心设计理念 - VINE模型基于分层强化学习构建 借鉴认知双系统理论 将高层推理与低层控制分离 形成System 2和System 1两大核心模块 [4] - 核心设计理念包括分层解耦 高层专注可行性规划 低层专注动作执行 失败信号仅注入高层规划 [7] - 采用失败感知机制 通过失败数据训练价值函数 让规划过程能预判高风险路径并提前剪枝 [7] - 支持离线训练 完全基于离线遥控数据进行训练 降低了落地成本 [7] 关键技术细节 - 问题形式化基于半马尔可夫决策过程 高层抽象为节点和边构成的SMDP 低层为标准马尔可夫决策过程 [7] - System 2作为元控制器 通过树搜索实现可行性导向规划 其核心包括世界模型与候选生成 失败感知价值函数以及树搜索算法 [6][8] - 失败感知价值函数估算从节点出发先到达目标集再到达失败集的概率 通过成功和失败数据联合训练 确保对失败路径的敏感 [6] - 树搜索采用批量蒙特卡洛树搜索 通过失败数据训练的价值函数剪枝脆弱分支 优先选择高可行性路径 [8][9] - System 1负责将高层规划的子目标序列转化为连续控制动作 仅基于成功数据训练 采用流匹配模型生成高频率动作块以适应20Hz控制需求 [10] 实验设置与核心结果 - 实验环境包括仿真环境和真实环境 均设置了见过和未见过场景以测试泛化能力 [12] - 仿真任务包括插头插入和抽屉打包 使用了人类遥控轨迹数据集 其中插头插入450条 抽屉打包240条 [17] - 在插头插入任务中 VINE在未见过场景中的成功率达到0.422 比最佳基线提升了26.7% 平均成功率达0.611 领先所有基线 [18] - 在抽屉打包任务中 VINE在未见过场景的成功率达0.675 比基线提升17.4% 平均成功率达0.752 相对提升10.1% [19] - 变体分析表明 树搜索和失败数据均为关键 无树搜索的变体在未见过场景成功率仅0.244 无失败数据的变体为0.525 而完整VINE达到0.675 [19] - 在真实世界实验中 VINE在见过场景的海绵收纳成功率达0.75 毛巾收纳达0.55 均优于基线 在未见过场景中 VINE的海绵收纳成功率达0.65 毛巾收纳达0.55 大幅领先基线 [21][23] 消融实验与模型分析 - 树搜索算法中 蒙特卡洛树搜索比深度优先搜索在未见过场景成功率高3.1% 且延迟减少9.7秒 [25] - 在多模态骨干网络融合中 当插值权重λₘ=0.6时性能最优 见过场景成功率0.800 未见过0.422 证明了动作先验与语言推理平衡的重要性 [27][29] - 添加不确定性触发的重规划模块后 抽屉打包未见过场景成功率从0.675提升至0.740 缓解了执行过程中的状态漂移问题 [30] 核心优势与贡献 - 有效利用了失败数据 将失败从噪声转化为可行性约束 通过价值函数直接指导规划 大幅提升了泛化能力 [33] - 分层架构具有灵活性 高层规划可通过调整搜索宽度适应任务复杂度 低层执行保持稳定 无需全模型重训 [33] - 支持离线训练 完全基于现有遥控数据 无需在线交互 降低了机器人部署的安全风险和成本 [33] - 研究提出了融合失败经验的分层VLA框架 首次将失败数据作为结构化规划信号 [33] - 设计了基于2D场景图和树搜索的失败感知规划器 通过价值函数量化路径可行性 实现前瞻性风险规避 [33] - 通过仿真与真实环境的全面验证 证明了失败数据和分层推理对提升鲁棒性的关键作用 [33]