Workflow
预测性策略
icon
搜索文档
CoRL 2025|隐空间扩散世界模型LaDi-WM大幅提升机器人操作策略的成功率和跨场景泛化能力
机器之心· 2025-08-17 04:28
技术方案 - 提出LaDi-WM(Latent Diffusion-based World Models)隐空间扩散世界模型 解决机器人操作任务中预测精确未来状态的挑战 通过预训练视觉基础模型构建包含几何特征(基于DINOv2)和语义特征(基于Siglip)的通用隐空间表示 [2][5][10] - 设计扩散策略 通过整合世界模型生成的预测状态迭代优化输出动作 生成更一致准确的动作结果 实验显示该方案可降低策略模型输出分布熵 [6][12][21] - 技术框架分为世界模型学习(隐空间表示与交互扩散)和策略模型训练与迭代优化推理两阶段 其中交互扩散过程促进几何与语义表征的依赖关系学习 [9][10][12] 性能表现 - 在LIBERO-LONG数据集上达到68.7%的平均成功率 较其他方法提升显著 其中DreamerV3为33.5% TDMPC2为37.0% ATM为44.0% Seer为53.6% [15][16] - 在CALVIN D-D数据集上展示强大长时任务性能 平均连续完成任务数达3.63 优于Vanilla BC(2.44) DreamerV3(2.51) ATM(2.98)和Seer(3.60) [17] - 真实场景实验将原始模仿学习策略成功率提升20% 从Vanilla BC的40%提升至60% 在叠碗 开抽屉等具体任务中表现优异 [24][25] 泛化能力 - 跨场景实验显示世界模型泛化能力优于策略模型 使用LIBERO-LONG训练的世界模型引导CALVIN环境策略学习 性能达3.05平均连续任务数 显著高于直接应用策略模型的0 [20][21] - 可扩展性实验表明 随着世界模型训练数据增加 预测误差降低且策略性能提升 随着策略模型训练数据和参数量增加 抓取操作成功率逐渐提升 [18] 创新点 - 基于隐空间扩散的世界模型 利用视觉基础模型构建隐空间通用表示 学习可泛化动态建模能力 [5][28] - 基于世界模型预测迭代优化的扩散策略 将未来预测状态反馈给策略模型实现迭代式优化 [6][12][28]