南洋理工大学提出NORA-1.5:一种基于世界模型与动作奖励的VLA模型
具身智能之心·2025-11-21 00:04

文章核心观点 - 南洋理工大学等研究单位提出的NORA-1.5模型通过集成流匹配动作专家与奖励驱动的直接偏好优化后训练 解决了现有视觉-语言-动作模型在泛化性和可靠性方面的不足 [1][3] - 该模型在仿真与真实机器人场景中均实现了当前最优性能 持续超越现有SOTA模型 [1][3] 核心定位与解决的关键问题 - 聚焦视觉-语言-动作模型在跨载体部署和真实环境中可靠性与泛化性不足的痛点 [3] - 核心方案是在预训练NORA backbone基础上 新增流匹配动作专家 并搭配双组件奖励模型与DPO后训练 [3] - 核心成果体现在SimplerEnv LIBERO模拟基准和Galaxea A1真实机器人上的卓越表现 [3] 架构设计与技术方案 - 采用独立动作专家直接回归长度为的动作序列 输入为视觉-语言编码键值对 损失函数为流匹配损失 [5] - 动作专家与VLA backbone协同优化 专家利用VLA的场景与指令表征 VLA通过专家反馈优化轨迹规划连贯性 [5] - 基于Qwen-2.5-VL-3B视觉语言模型 经Open X-Embodiment数据集模仿学习预训练 采用FAST+动作分词器高效离散化多类型动作序列 [8] 奖励机制设计 - 采用双组件奖励模型设计 平衡目标导向与稳定性 核心奖励包括世界模型引导的目标奖励和真实动作偏差奖励 [5][6] - 总奖励为两者的加权组合 旨在平衡目标探索与轨迹稳定性 避免单一奖励的缺陷 [6] - 子目标奖励比终目标奖励平均性能高1.7% 在复杂环境中鲁棒性更强 [9][19] 训练流程 - 训练分为两阶段 第一阶段为动作专家联合训练 第二阶段为DPO后训练 [7][10] - 构建偏好数据集时基于总奖励生成胜败动作对 应用DPO目标函数对齐动作专家与VLA解码器输出 [10] 实验性能表现 - 在SimplerEnv零样本场景下 拾取可乐罐任务成功率超越基线4.6% 物体靠近任务成功率超越基线10.7% DPO后整体平均提升4.9% [11] - 在LIBERO长周期任务中 DPO后成功率提升1.0% 综合平均达95.0% 超越SOTA模型 [11] - 在Galaxea A1真实机器人9类拾取-放置任务中 成功率比NORA等模型提升13%-46% 在未见物体或指令场景下提升更显著 [15] - DPO后抓取准确率提升11% 干扰物误抓率下降4% 动作序列长度从9.7缩减至7.0 机器人抓手轨迹更平滑 [15][16]