谷歌DeepMind Genie 3世界模型发布 - 公司宣布推出第三代Genie世界模型,可通过单个文本提示词创建交互式、可玩的环境,支持生成从逼真风景到奇幻境界的多样化场景[1][2] - 模型在720p分辨率下实现每秒24帧实时导航,保持数分钟一致性,显著优于前代Genie 2和同类产品[2][3] 技术参数对比 - 分辨率:Genie 3达720p,超越GameNGen(320p)和Genie 2(360p),但低于Veo(最高4K)[3] - 交互视界:Genie 3达数分钟,远超GameNGen(几秒)、Genie 2(10-20秒)和Veo(8秒)[3] - 实时性:Genie 3实现实时响应,而Genie 2存在延迟[3] - 通用性:Genie 3适用于通用领域,优于游戏专用的GameNGen[4] 核心技术突破 - 实现实时响应和长时间一致性,模型需每秒多次计算以处理用户输入并维持场景连贯性[7] - 具备视觉记忆能力,可回溯一分钟前的画面状态,解决自回归生成误差累积问题[7] - 通过"涌现能力"实现二维图像的动态一致性,区别于NeRF等三维生成方法[8] 创新功能 - 支持"可提示的世界事件",可通过文本改变已生成世界的天气、物体等要素[9][11] - 能模拟自然现象、生态系统、动画场景及历史背景,突破地理时间限制[10] - 为智能体训练提供虚拟环境,如DeepMind已将SIMA智能体接入Genie 3世界进行测试[12] 应用前景 - 预计将为教育、培训领域创造新机会,如历史场景重现等教学应用[12] - 可能推动AI研究和生成式媒体发展,公司计划扩大测试范围[12] - 从2018年GQN到Genie 3,世界模型技术实现显著进化[13] 当前局限性 - 动作空间有限,agent直接执行的动作范围受限制[16] - 多agent交互模拟仍具挑战性,真实地理位置还原精度不足[16] - 文本渲染依赖输入描述,连续交互时间目前仅限数分钟[16]
震撼,世界模型第一次超真实地模拟了真实世界:谷歌Genie 3昨晚抢了OpenAI风头