大模型国际象棋对抗 - 财报，业绩电话会，研报，新闻

大模型国际象棋对抗

搜索文档

机器之心· 2025-08-08 10:18

赛事结果 - 首届谷歌Kaggle AI Chess大赛决赛中，OpenAI o3以4-0横扫Grok 4夺得冠军 [4][7][15] - 季军争夺战中，Gemini 2.5 Pro以3.5-0.5击败o4-mini获得铜牌 [4][16][24] 模型表现 - Grok 4在半决赛前展现碾压级棋力，但决赛中频繁出现低级失误，如首局白丢一象、第二局贸然吃兵导致溃败 [6][8][10] - o3在决赛中保持冷酷处刑姿态，第四局虽自毁长城送皇后，但凭借残局精准理解力逆转获胜 [8][13][15] - Gemini 2.5 Pro季军战表现混乱，对局质量业余，第三局平局暴露双方频繁失误 [17][19][20] 技术亮点 - 第二局出现西西里防御毒兵变例，黑棋12...Qxa2??无视白方守护导致溃败 [10] - o3在残局阶段展现超强终盘理解力，完成教科书式将杀 [13] - Grok 4被指出残局存在致命短板，无法把握车兵将死机会 [13]

大模型国际象棋对抗

Artificial Intelligence

Artificial Intelligence

GPT - 5

Grok 4

Gemini 2.5 Pro

您猜怎么着？Grok 4进决赛，大模型对抗赛Gemini全军覆没，马斯克「装」起来了

机器之心· 2025-08-07 02:41

比赛结果与晋级情况 - Grok 4 在半决赛中以 2-3 击败 Gemini 2.5 Pro 晋级决赛比赛通过末日加赛决出胜负常规赛比分为 2:2 平 [6][24][26] - o3 在半决赛中以 4-0 横扫 o4-mini 晋级决赛延续了其全胜战绩 [8][10] - 决赛将在 Grok 4 和 o3 之间展开 Gemini 2.5 Pro 和 o4-mini 将争夺季军 [46] 模型表现分析 - o3 展现出卓越的稳定性和复杂推理能力在比赛中取得 100 分准确率评分并以 12 步完成致胜攻击 [10][12][15] - o4-mini 作为轻量级模型在象棋任务中因稳定推理能力和容错性不足而落败 [10][11] - Grok 4 表现混乱频繁送子得分但在加赛中凭借执黑优势晋级 [26][27][43] 比赛亮点与战术细节 - o3 在第 12 回合的 12…Bb4+ 和第 19 回合的 19…e3+ 展现出高质量中间招法 [19] - Gemini 2.5 Pro 出现幻觉误判局面导致送后 [33] - Grok 4 在加赛中错过 14 Nf6 将杀机会但最终因三次重复局面以和棋晋级 [40][43] 行业观察与评论 - 谷歌举办比赛旨在分析 AI 模型思考方式但对局中的第二盘对普通棋手更具参考价值 [12] - 马斯克评论国际象棋对 Grok 而言是"副作用" 未投入过多优化资源 [4][25] - AI 模型在脱离开局定式后普遍表现下滑但 Grok 和 Gemini 展现出更长的理论遵循能力 [26][27][36]