Genie Envisioner：面向机器人操作的统一世界基础平台

核心观点 - Genie Envisioner是一个面向机器人操作的统一世界基础平台，通过单一视频生成框架实现策略学习、评估与仿真的深度融合 [3] - 平台核心组件包括GE-Base世界基础模型、GE-Act动作模型和GE-Sim模拟器，共同构成指令驱动的通用具身智能系统解决方案 [3][27] - 平台集成EWMBench标准化评测套件，系统评估视觉保真度、物理一致性及指令-动作对齐度等关键指标 [3][23] 平台架构 - GE-Base是基于指令调控的大规模视频扩散模型，在结构化潜空间中捕捉机器人交互的空间、时间与语义动态特征 [3][5] - GE-Act通过1.6亿参数的自回归动作解码器实现跨机器人形态的精准策略推理与泛化能力 [15] - GE-Sim作为动作条件神经模拟器，为闭环策略开发提供高保真度环境推演 [21] 技术特性 - GE-Base训练数据包含100万条指令对齐的视频序列和多视角同步采集数据 [11] - GE-Act支持毫秒级实时响应（<10ms延迟）和跨场景通用控制接口 [15] - GE-Sim采用分层动作条件化机制，实现帧率≥30fps的动作条件化视频生成 [25] 评估体系 - EWMBench提供三大核心评测维度：视觉场景一致性、运动正确性、语义对齐和多样性 [23] - 评估指标包括BLEU 0.3255、CLIP 90.79、DYN 0.7836等量化数据 [26] - 支持从视觉真实性、语义对齐性和策略一致性等多维度严谨评估 [27] 应用表现 - 平台在布料折叠、装箱等复杂任务中展现卓越性能 [27] - GE-Act通过最小化适配即可迁移至新型机器人平台 [27] - 大量真实世界评估证实了各组件优越性 [27]