Workflow
宇树开源了UnifoLM-WMA-0: 一个跨实体的世界模型+Action的框架
具身智能之心·2025-09-16 03:29

核心观点 - 宇树科技推出开源世界模型-行动架构UnifoLM-WMA-0 专为通用机器人学习设计 具备物理交互理解能力 支持仿真引擎和策略增强两大功能 [2] 架构设计 - 架构嵌入世界模型 支持决策模式和模拟模式运行 决策模式预测未来物理交互信息辅助策略生成动作 模拟模式根据机器人动作生成高保真环境反馈 [7] - 基于视频生成模型微调 以图像和文本指令为输入 生成未来交互过程视频 适配机器人操作场景 [11] - 动作可控生成功能通过五个开源数据集训练 可根据当前图像和未来机器人动作实现交互式可控生成 [11] 数据集与模型 - 提供两个模型版本 UnifoLM-WMA-0Ba基于Open-X数据集微调 UnifoLM-WMA-0基于五个宇树机器人开源数据集训练 支持决策和模拟模式 [13] - 数据集覆盖Z1和G1机器人形态 包含双臂堆叠箱体 清理铅笔 包装相机等具体任务场景 [14] - 所有数据集和模型均通过HuggingFace平台开源提供 [13][14] 技术实现 - 训练过程分两阶段 先在Open-X数据集微调视频生成模型 再基于宇树机器人数据集训练动作可控生成能力 [11] - 测试表明模型可作为仿真引擎 实现基于图像和动作指令的交互式可控生成 [11]