智元机器人发布行业首个机器人世界模型开源平台——Genie Envisioner
机器人圈·2025-08-15 10:19
核心创新:视觉中心的世界建模范式 GE的核心突破在于构建了基于世界模型的以视觉中心的建模范式。不同于主流VLA(Vision- Language-Action)方法依赖视觉-语言模型将视觉输入映射到语言空间进行间接建模,GE直接 在视觉空间中建模机器人与环境的交互动态。这种方法完整保留了操控过程中的空间结构和时序 演化信息,实现了对机器人-环境动态更精确、更直接的建模。这一视觉中心的建模范式带来了 两个关键优势: 高效的跨本体泛化能力 导 言 智元机器人重磅推出面向真实世界机器人操控的统一世界模型平台 --- Genie Envisioner(GE) 。 不同于传统"数据—训练—评估"割裂的流水线模式,GE将 未来帧预测、策略学习与仿真评 估 首次整合进以视频生成为核心的闭环架构,使机器人在同一世界模型中完成从"看"到"想"再 到"动"的端到端推理与执行。基于3000小时真机数据, GE-Act不仅在跨平台泛化和长时序任务 执行上显著超越现有SOTA,更为具身智能打开了从视觉理解到动作执行的全新技术路径 。 Project page https://genie-envisioner.github.io/ Ar ...