具身智能体研究

搜索文档
谷歌“世界模拟器”深夜上线!一句话生成3D世界,支持分钟级超长记忆
量子位· 2025-08-06 01:43
产品发布 - 谷歌DeepMind发布新一代通用世界模型Genie 3 [2] - Genie 3支持720P画质、每秒24帧实时导航以及分钟级一致性保持 [4] - 相比Genie 2,Genie 3在画质、交互方式、时长和实时性方面大幅提升 [14] 性能对比 - Genie 3分辨率从Genie 2的360p提升至720p [5] - 交互方式从有限的键盘/鼠标操作升级为导航和可提示世界事件 [5] - 交互时长从10-20秒延长至多分钟,并实现实时交互 [5] - 与同类产品相比,Genie 3在分辨率、领域通用性和交互时长上具有优势 [15] 技术特性 - Genie 3生成结果具备3D空间一致性,世界更加丰富且更具动态 [15] - 能够模拟世界的物理特性,处理水面等自然现象和复杂环境相互作用 [16] - 支持构建现实场景、虚拟场景如动画和童话世界 [18][20][22][23] - 可超越地理和时间界限,探索不同地方和时代 [25] 核心优势 - 长期环境一致性:画面中物体在几分钟内保持物理一致性 [27][28] - 视觉记忆可追溯至一分钟前,误差累积问题得到改善 [29][30] - 支持基于文本提示在世界中生成事件,如更换物体或添加动态元素 [33][35] 应用场景 - 推动具身智能体研究,为智能体训练生成兼容性环境 [37][39] - 在面包店、农贸市场等场景测试智能体操作和未来事件模拟 [41][43] - 有望在AGI发展过程中发挥关键作用,推动智能体技术落地现实世界 [44] 测试反馈 - 前DeepMind科学家生成57秒城市高空漫游场景,评价其通用性强且具备物理学习能力 [6][7][9] - Reddit网友认为Genie 3可能是通往AGI的最后一块拼图 [10] - 目前以研究预览形式发布,邀请专业研究者和创作者测试 [13]