分层VLA模型 - 财报，业绩电话会，研报，新闻

分层VLA模型

搜索文档

具身智能之心· 2025-12-05 16:02

文章核心观点 - 提出了一种名为VINE的新型分层视觉-语言-动作模型该模型创新性地将机器人操作数据中的失败经验转化为结构化学习信号通过失败感知的树搜索规划机制显著提升了模型在复杂和未见场景中的任务成功率和鲁棒性 [2][3][4] 现有VLA模型的局限与研究目标 - 传统视觉-语言-动作模型依赖人类遥控收集的成功演示数据训练而数据采集过程中产生的大量失败尝试常被当作噪声丢弃 [2] - 这些失败数据蕴含着政策脆弱点的关键信息单纯依赖成功数据的模型难以应对复杂环境中的不确定性在未见场景中鲁棒性大幅下降 [2] - 研究目标是构建分层VLA模型将失败经验转化为结构化学习信号在不改变机器人核心技能的前提下提升复杂操作任务的成功率和鲁棒性 [3] 模型架构与核心设计理念 - VINE模型基于分层强化学习构建借鉴认知双系统理论将高层推理与低层控制分离形成System 2和System 1两大核心模块 [4] - 核心设计理念包括分层解耦高层专注可行性规划低层专注动作执行失败信号仅注入高层规划 [7] - 采用失败感知机制通过失败数据训练价值函数让规划过程能预判高风险路径并提前剪枝 [7] - 支持离线训练完全基于离线遥控数据进行训练降低了落地成本 [7] 关键技术细节 - 问题形式化基于半马尔可夫决策过程高层抽象为节点和边构成的SMDP 低层为标准马尔可夫决策过程 [7] - System 2作为元控制器通过树搜索实现可行性导向规划其核心包括世界模型与候选生成失败感知价值函数以及树搜索算法 [6][8] - 失败感知价值函数估算从节点出发先到达目标集再到达失败集的概率通过成功和失败数据联合训练确保对失败路径的敏感 [6] - 树搜索采用批量蒙特卡洛树搜索通过失败数据训练的价值函数剪枝脆弱分支优先选择高可行性路径 [8][9] - System 1负责将高层规划的子目标序列转化为连续控制动作仅基于成功数据训练采用流匹配模型生成高频率动作块以适应20Hz控制需求 [10] 实验设置与核心结果 - 实验环境包括仿真环境和真实环境均设置了见过和未见过场景以测试泛化能力 [12] - 仿真任务包括插头插入和抽屉打包使用了人类遥控轨迹数据集其中插头插入450条抽屉打包240条 [17] - 在插头插入任务中 VINE在未见过场景中的成功率达到0.422 比最佳基线提升了26.7% 平均成功率达0.611 领先所有基线 [18] - 在抽屉打包任务中 VINE在未见过场景的成功率达0.675 比基线提升17.4% 平均成功率达0.752 相对提升10.1% [19] - 变体分析表明树搜索和失败数据均为关键无树搜索的变体在未见过场景成功率仅0.244 无失败数据的变体为0.525 而完整VINE达到0.675 [19] - 在真实世界实验中 VINE在见过场景的海绵收纳成功率达0.75 毛巾收纳达0.55 均优于基线在未见过场景中 VINE的海绵收纳成功率达0.65 毛巾收纳达0.55 大幅领先基线 [21][23] 消融实验与模型分析 - 树搜索算法中蒙特卡洛树搜索比深度优先搜索在未见过场景成功率高3.1% 且延迟减少9.7秒 [25] - 在多模态骨干网络融合中当插值权重λₘ=0.6时性能最优见过场景成功率0.800 未见过0.422 证明了动作先验与语言推理平衡的重要性 [27][29] - 添加不确定性触发的重规划模块后抽屉打包未见过场景成功率从0.675提升至0.740 缓解了执行过程中的状态漂移问题 [30] 核心优势与贡献 - 有效利用了失败数据将失败从噪声转化为可行性约束通过价值函数直接指导规划大幅提升了泛化能力 [33] - 分层架构具有灵活性高层规划可通过调整搜索宽度适应任务复杂度低层执行保持稳定无需全模型重训 [33] - 支持离线训练完全基于现有遥控数据无需在线交互降低了机器人部署的安全风险和成本 [33] - 研究提出了融合失败经验的分层VLA框架首次将失败数据作为结构化规划信号 [33] - 设计了基于2D场景图和树搜索的失败感知规划器通过价值函数量化路径可行性实现前瞻性风险规避 [33] - 通过仿真与真实环境的全面验证证明了失败数据和分层推理对提升鲁棒性的关键作用 [33]

VINE（Vision–Language–Action model Integrating Negative Experience）

VINE（Vision–Language–Action model Integrating Negative Experience）