Workflow
锯齿智能
icon
搜索文档
诺奖得主谈「AGI试金石」:AI自创游戏并相互教学
36氪· 2025-08-19 00:00
Genie 3 世界模型 - Genie 3 是 DeepMind 多个研究分支融合的成果,核心目标是构建“世界模型”,让 AI 理解物理世界的规律,包括物理结构、材料特性、液体流动、生物行为等 [3] - 通过 3D 游戏引擎等模拟环境生成大量数据,让 AI 在虚拟场景中学习现实规律,能生成具有一致性的世界,用户返回虚拟场景时状态与离开时保持一致 [4] - 已用于内部训练,游戏 agent SIMA 可直接操控电脑游戏,Genie 3 实时生成对应的环境变化,形成“AI 生成世界、另一个 AI 探索”的闭环,为机器人技术和 AGI 系统创建无限训练数据 [4] - 在互动娱乐领域有潜在价值,可能催生介于电影与游戏之间的新型娱乐形式,与视频模型共同为探索现实本质提供新维度 [5] Game Arena 评估平台 - Google DeepMind 与 Kaggle 合作推出 Game Arena,作为评估 AGI 进展的新测试平台,让模型玩各种游戏并测试能力 [6] - 游戏是非常纯粹的测试场所,通过 Elos 等级分客观衡量性能,没有主观性,不需要人类进行 A/B 测试 [9] - 随着 AI 系统能力提升,游戏难度可自动调整,系统在比赛中相互较量,能力增强则测试自动升级 [9] - 未来支持 AI 自创游戏并相互教学,避免训练数据过度拟合,更真实检验通用学习能力 [10] - 将与其他新型评估工具共同作用,确保 AI 系统在认知能力的各个维度得到全面检验 [11] AI 系统现状与挑战 - 当前 AI 系统存在能力不均衡现象,能在 IMO 中获得金牌,却可能在高中数学、简单逻辑问题或特定游戏中犯低级错误 [7] - 现有评估基准存在局限性,很多 benchmark 开始变得饱和,例如数学领域 AIME 的正确率已达 99.2%,进入回报非常有限的阶段 [7] - 需要更难、更广泛的 benchmark,涵盖物理世界理解、直觉物理、物理智能及安全特性等维度 [8] Thinking 模型与工具使用 - Thinking 模型演进是重要方向,以 Deep Think 为代表的系统延续 AlphaGo 等早期游戏 AI 的 agent 系统思路,强调思考、规划与推理能力 [12] - 可进行深度思考和并行规划,在数学、编程、科学问题等领域通过反复推演优化结果,而非直接输出初始结论 [12] - 工具使用成为 AI 能力扩展的新维度,在推理过程中可调用搜索功能、数学程序、编码工具等,更新规划方案 [12] AI 系统架构转变 - AI 正从权重模型向完整系统转变,早期模型输入输出模式较简单,如今系统能结合工具使用、规划与思考能力,实现更复杂功能 [13] - 产品设计需具备前瞻性,预判一年后技术水平,允许底层引擎定期更新,周期可能短至三到六个月,以适应技术快速迭代 [13]