Workflow
Stockfish
icon
搜索文档
Nature重磅发文:深度学习x符号学习,是AGI唯一路径
36氪· 2025-12-17 02:12
行业技术发展路径 - 当前以神经网络(尤其是大模型)为主导的AI范式在实现类人智能方面被认为存在根本性局限,绝大多数研究者认为仅靠神经网络无法实现人类级智能(AGI)[1] - 行业探索的新方向是神经-符号融合(Neurosymbolic AI),即将基于规则逻辑的符号派AI与基于数据学习的神经网络相结合,这被视为打破单一神经网络话语权、通往AGI的潜在突破路径[2][5] - 神经-符号融合不仅旨在追求通用智能的长期目标,更着眼于在军事、医疗等高可靠性要求场景中,提供人类可理解、可追溯的智能形态[7] 符号AI的复兴与价值 - 符号派AI历史上曾为主流,其核心是相信世界可以用精确的规则、逻辑和概念关系来刻画[3] - 随着神经网络凭借数据驱动范式崛起,符号系统一度被边缘化,但自2021年左右起,神经-符号融合研究急速升温,符号AI价值被重新评估[5] - 符号系统的优势在于其运作机制清晰、擅长逻辑推理,并能将通用知识应用于全新情境,但其弱点在于难以处理模糊概念(如人类语言),且构建庞大规则库难度大、搜索速度慢[19] 神经网络的优势与局限 - 神经网络通过多层节点调整权重从数据中学习模式,其优势是速度快、富有创造力,但缺陷是会产生“幻觉”编造内容,且对于超出训练数据范围的问题无法可靠回答[19] - 缺乏符号知识导致神经网络会犯低级错误,例如生成有六根手指的人像,因为它没有掌握“手通常有五根手指”这一通用概念[16] - 部分研究者认为,这些错误揭示了神经网络在泛化知识和逻辑推理方面存在根本性能力不足,而不仅是缺乏数据或算力的问题[18] 技术融合的实践与挑战 - 已有代表性的神经符号AI系统问世,例如DeepMind的AlphaGeometry能稳定解出国际数学奥林匹克竞赛(IMO)级别题目[7] - 主流技术路径之一是**用符号技术加持神经网络**:例如AlphaGeometry先用符号编程生成海量数学题作为合成数据,再训练神经网络,使解题过程可验证且错误率极低[33][35] - 另一条路径是**用神经网络辅助符号算法**:利用神经网络预测方向以大幅修剪符号系统庞大的搜索空间,例如AlphaGo通过神经网络预测高胜率落子,从而在约10^170种可能性的围棋搜索树中快速锁定最佳走法[37] - 然而,将两者深度融合成通用“全能AI”仍极其棘手,系统架构复杂,被形容为设计一个“双头怪物”[7] 行业观点分歧 - 支持纯神经网络路径的观点以Richard Sutton的《苦涩的教训》为代表,认为利用海量数据和算力进行搜索与学习的系统反复战胜了依赖人类设计规则的符号方法,例如早期国际象棋程序败给数据驱动系统[9][10] - 神经网络支持者引用该观点,主张将系统做得更大是通往AGI的最佳路径[13] - 但许多研究人员认为该观点言过其实,低估了符号系统的关键作用,并指出当今最强国际象棋程序Stockfish正是结合了神经网络与符号树[13] - 神经符号融合的支持者(如Gary Marcus)认为,这可能是向AI注入逻辑推理的最佳甚至唯一方法,IBM等科技巨头也正押注该技术[18] - 反对融合的观点依然存在,例如Yann LeCun曾表示神经符号方法与深度学习机制“不兼容”[21],而Richard Sutton坚持认为“苦涩的教训”至今仍适用[22] - 也有务实派(如MIT的Leslie Kaelbling)认为争论哪种观点正确无益,应专注于任何行之有效的方法[26]
刚刚,大模型棋王诞生,40轮血战,OpenAI o3豪夺第一,人类大师地位不保?
36氪· 2025-08-22 11:51
国际象棋AI积分赛排名结果 - OpenAI o3以人类等效Elo 1685分排名第一,其Game Arena内部Elo为1397分 [1][3][4] - Grok 4以人类等效Elo 1395分位列第二,Game Arena内部Elo为1112分 [1][3][4] - Gemini 2.5 Pro以人类等效Elo 1343分排名第三,Game Arena内部Elo为1061分 [1][3][4] - DeepSeek R1与GPT-4.1、Claude Sonnet-4、Claude Opus-4并列第五,人类等效Elo在664-759分之间 [1][5][12] 比赛机制与评估方法 - 采用40轮循环赛制(每对模型进行20场白棋和20场黑棋对决)构建Bradley-Terry算法计算的Elo排名 [11][12] - 人类等效Elo通过模型与Stockfish引擎(L0-L3等级)对弈结果线性插值计算,其中L0对应1320分、L1对应1468分、L2对应1608分、L3对应1742分 [13] - 新增效率指标包括平均每回合输出Token数(如GPT-4.1为718 token)和平均每回合推理成本(如Claude Opus-4为24.50单位) [12][16] 技术平台与数据开放 - Kaggle Game Arena平台提供游戏回放功能及可移植棋谱(PGN)数据集,包含模型推理过程记录 [20][24][25] - 测试设计强调规避数据污染问题,通过动态博弈评估模型真实战略推理能力 [22] - 平台未来计划扩展更多游戏排行榜,持续跟踪AI模型在战略规划等认知能力的进步 [25] 性能差距与局限性 - 顶级AI模型(如o3)与人类大师级棋手(2200分)存在515分差距,与Stockfish引擎(3644分)差距显著 [14][16] - 测试局限包括:仅限国际象棋单一游戏、超时限制可能惩罚深度思考模型、抽样参数存在非确定性 [19][22][23]