技术方案与核心创新 - 提出“视觉-语言-动作模型与世界模型双向增强”的核心思路,以解决现有方案在动作生成、环境理解与未来预测方面的单向能力瓶颈[3][4] - 采用统一多模态编码,使用四类Tokenizer将图像、文本、状态、动作信息编码到规模为65536的统一词汇表中,打破模态间的信息壁垒[7][8] - 设计双向增强架构,使VLA模型的视觉理解能力提升世界模型的场景预测精度,世界模型学到的物理动态规律优化VLA模型的动作规划逻辑,实现协同闭环[10][14] - 创新混合动作生成机制,包含针对模拟场景优化的离散动作生成和针对真实场景优化的连续动作生成,通过动作注意力掩码策略避免误差累积[11][12][17] 模型性能与实验结果 - 在LIBERO模拟基准测试中,无预训练状态下连续动作版本平均成功率达97.4%,其中空间任务成功率99.0%、物体任务成功率99.8%[19][20] - 离散动作版本在LIBERO基准平均成功率为93.3%,长序列任务成功率达87.6%[20] - 在真实机器人SO100机械臂任务中,“将方块放入圆圈”任务在多目标场景成功率90%,含干扰物场景成功率80%[23][24] - “将草莓放入杯子”任务在单目标与多目标场景成功率均达80%,展现出强鲁棒性[23][24] - 关键消融实验表明,世界模型的融入使模拟场景中连续动作成功率从91.6%提升至94.6%,真实场景成功率从不足30%突破至80%以上[27][28] 技术优势与产业价值 - 该方案实现了“感知-理解-行动-预测”的全链路打通,为机器人操控技术从实验室走向产业化提供了参考范本[3][37] - 模型不依赖大规模机器人预训练数据,降低了真实场景应用门槛,无预训练也能实现高效落地[19][23][40] - 混合动作生成设计兼顾了模拟场景的高精度需求与真实场景的泛化与速度要求,实现场景全覆盖[11][40] - 架构通过双向增强激活双模型潜力,解决了单一模型“能做不能想”或“能想不能做”的行业痛点[37][40]
达摩院最新!RynnVLA-002:统一VLA与世界模型