Workflow
大模型国际象棋对抗
icon
搜索文档
4比0横扫Grok 4,o3强势夺冠,首届大模型对抗赛结果出炉
机器之心· 2025-08-08 10:18
赛事结果 - 首届谷歌Kaggle AI Chess大赛决赛中,OpenAI o3以4-0横扫Grok 4夺得冠军 [4][7][15] - 季军争夺战中,Gemini 2.5 Pro以3.5-0.5击败o4-mini获得铜牌 [4][16][24] 模型表现 - Grok 4在半决赛前展现碾压级棋力,但决赛中频繁出现低级失误,如首局白丢一象、第二局贸然吃兵导致溃败 [6][8][10] - o3在决赛中保持冷酷处刑姿态,第四局虽自毁长城送皇后,但凭借残局精准理解力逆转获胜 [8][13][15] - Gemini 2.5 Pro季军战表现混乱,对局质量业余,第三局平局暴露双方频繁失误 [17][19][20] 技术亮点 - 第二局出现西西里防御毒兵变例,黑棋12...Qxa2??无视白方守护导致溃败 [10] - o3在残局阶段展现超强终盘理解力,完成教科书式将杀 [13] - Grok 4被指出残局存在致命短板,无法把握车兵将死机会 [13]
您猜怎么着?Grok 4进决赛,大模型对抗赛Gemini全军覆没,马斯克「装」起来了
机器之心· 2025-08-07 02:41
比赛结果与晋级情况 - Grok 4 在半决赛中以 2-3 击败 Gemini 2.5 Pro 晋级决赛 比赛通过末日加赛决出胜负 常规赛比分为 2:2 平 [6][24][26] - o3 在半决赛中以 4-0 横扫 o4-mini 晋级决赛 延续了其全胜战绩 [8][10] - 决赛将在 Grok 4 和 o3 之间展开 Gemini 2.5 Pro 和 o4-mini 将争夺季军 [46] 模型表现分析 - o3 展现出卓越的稳定性和复杂推理能力 在比赛中取得 100 分准确率评分 并以 12 步完成致胜攻击 [10][12][15] - o4-mini 作为轻量级模型 在象棋任务中因稳定推理能力和容错性不足而落败 [10][11] - Grok 4 表现混乱 频繁送子得分 但在加赛中凭借执黑优势晋级 [26][27][43] 比赛亮点与战术细节 - o3 在第 12 回合的 12…Bb4+ 和第 19 回合的 19…e3+ 展现出高质量中间招法 [19] - Gemini 2.5 Pro 出现幻觉 误判局面导致送后 [33] - Grok 4 在加赛中错过 14 Nf6 将杀机会 但最终因三次重复局面以和棋晋级 [40][43] 行业观察与评论 - 谷歌举办比赛旨在分析 AI 模型思考方式 但对局中的第二盘对普通棋手更具参考价值 [12] - 马斯克评论国际象棋对 Grok 而言是"副作用" 未投入过多优化资源 [4][25] - AI 模型在脱离开局定式后普遍表现下滑 但 Grok 和 Gemini 展现出更长的理论遵循能力 [26][27][36]