产品发布与定位 - Google DeepMind发布SIMA 2,这是一个能在虚拟3D世界中自主游戏、推理并持续学习的通用AI智能体,被定义为通往通用人工智能的关键一步[1] - SIMA 2是SIMA研究的重大飞跃,代表创建通用和有益AI智能体研究的下一个里程碑,通过集成Gemini模型的先进能力,从一个被动的指令遵循者进化为交互式的游戏伴侣[4] 核心能力与技术架构 - SIMA 2能遵循人类指令,并在未见过的复杂环境中进行自主规划、解释行动步骤、与用户实时对话,通过试错与Gemini反馈的闭环机制自我迭代[4] - 新架构集成了Gemini强大的推理能力,将SIMA 1的语言->行动模式升级为语言->意图->计划->行动的多步骤认知链[11] - 公司使用混合数据训练SIMA 2,包括带语言标签的人类演示视频以及Gemini生成的标签,使其能向用户描述其意图和行动步骤[11] - 智能体展现出前所未有的适应能力,能在由Genie 3从单张图像或文本提示生成的全新3D模拟世界中确定方位、理解指令并采取有意义的行动[23] 性能提升与泛化能力 - 第一版SIMA学会了在各种商业视频游戏中执行超过600种语言遵循技能,但缺乏深度规划和意图理解[7] - SIMA 2能理解更复杂、更细微的指令,执行成功率更高,尤其在从未训练过的游戏如ASKA或MineDojo中表现出色[16] - 智能体能够理解多模态提示,包括不同的语言甚至表情符号,并具备迁移学习能力,例如将对“采矿”的理解应用到另一种游戏中的“收获”[18][20][22] - 在多种任务上的表现已显著接近人类玩家的水平,展现了广泛的泛化能力[22] 自我提升与未来应用 - SIMA 2具备自我提升能力,能通过试错法和基于Gemini的反馈自举,执行日益复杂和新颖的任务[25] - 智能体可以从人类演示学习过渡到完全通过自我导向的游戏在新游戏中学习,其自身经验数据可用于训练能力更强的下一代版本[26] - 这项研究为面向行动的AI提供了新路径的基础验证,证实一个利用多样化多世界数据和Gemini强大推理能力的AI,可以将许多专用系统的能力统一到一个通才型智能体中[29] - 技术为机器人技术的应用提供了坚实路径,其学到的技能是未来物理世界AI助手所需的智能物理具身化的基本构建模块[30]
通往通用人工智能的关键一步?DeepMind放大招,3D世界最强AI智能体SIMA 2