Kimi K2 Instruct

搜索文档
爆冷,首届大模型争霸,Grok 4下出“神之一手”?DeepSeek、Kimi惨遭淘汰
36氪· 2025-08-07 01:16
赛事概况 - 谷歌旗下Kaggle平台举办首届全球AI国际象棋争霸赛 旨在通过游戏竞技评估通用大模型智能水平[1][3] - 参赛模型包括8款顶级语言模型:闭源阵营为Gemini 2.5 Pro、OpenAI o4-mini、Grok 4、OpenAI o3、Claude 4 Opus、Gemini 2.5 Flash 开源阵营为DeepSeek R1和Kimi K2 Instruct[1] - 比赛采用单败淘汰制 首日进行8进4淘汰赛 胜者以4-0全胜战绩晋级半决赛[2] 首轮赛果 - OpenAI o4-mini以4-0击败DeepSeek R1 后者在脱离开局模板后出现瞄准不存在棋子、防守无威胁空格等严重认知错误[11][13] - OpenAI o3因对手Kimi K2连续4局非法走子自动晋级 最短对局不足8回合 Kimi K2在脱离套路后出现棋盘误读[9][10] - Gemini 2.5 Pro以4-0淘汰Claude 4 Opus 后者在第十回合主动敞开防线送出突破口 成为首轮最接近真实对抗的对局[14][15][16] - Grok 4以4-0碾压Gemini 2.5 Flash 被业内评为开赛最佳表现 其精准识别弱点能力获马斯克在X平台转发[17][20] 赛事价值 - 游戏竞技具备无限扩展性和思维可视化优势 可完整追踪模型决策链并评估策略推理能力[3] - 明确输赢信号为AI智能评估提供理想试验场 尤其考验复杂推理任务中的长期规划与动态适应能力[21] - 真实评分标准基于数百场未公开对局 本次公开赛仅为测试通用智能的开局小规模测试[22] 赛程安排 - 半决赛对阵为OpenAI o3-mini对战同门o3 Gemini 2.5 Pro对战Grok 4[3] - 半决赛将于太平洋时间次日上午10:30举行[5]
战报:马斯克Grok4笑傲AI象棋大赛,DeepSeek没干过o4-mini,Kimi K2被喊冤
36氪· 2025-08-06 08:41
比赛概况 - 谷歌举办首届Kaggle AI国际象棋竞赛 旨在测试AI的涌现能力 比赛时间为8月5日至8月7日每天10:30(太平洋时间)并全程直播 [5][6] - 参赛模型包括OpenAI的o3和o4-mini、DeepSeek R1、Kimi K2 Instruct、Gemini 2.5 Pro和2.5 Flash、Claude Opus 4、Grok 4共8个顶级模型 [6] - 直播特邀国际象棋特技大师中村光担任讲解 其为全美冠军及GM头衔持有者 现任EWC国际象棋锦标赛季军 [7] 赛程安排 - 比赛周为8月4日至10日 其中周二至周四为AI展览锦标赛 具体时段为EDT时间10:30 AM或1:00 PM(对应印度时间9:00 PM或11:30 PM) [9] - 首日比赛后 Gemini 2.5 Pro、Grok 4、ChatGPT的o4-mini和o3晋级半决赛 [9][12] 首日赛果分析 - 所有八分之一决赛均以4-0的完美比分结束 体现明显实力差距 [12] - Grok 4表现最佳 被网友评价为"在战术策略和速度上超越所有其他模型" 其与Gemini 2.5 Flash对局中展现GM级水平 轻松获胜 [13][14] - OpenAI o4-mini战胜DeepSeek R1 虽双方均有失误 但o4-mini率先抓住R1的推理错误及棋盘局势误判 [16] - Gemini 2.5 Pro与Claude Opus 4的对局被评为当日最佳 两者展示高水平棋艺 Gemini Pro展现强大战术视野但分析冗长 Claude则出现失误 [18] - Kimi K2 Instruct因反复走非法棋步被o3弃权击败 成为最快结束的四分之一决赛 有观点认为Kimi作为非推理模型需长思考才能发挥性能 [20] 模型预期变化 - 赛前网友投票显示Gemini 2.5 Pro以22%支持率最被看好 o4-mini以3%支持率紧随其后 [28][31] - 首日后Grok 4支持率呈现压倒性优势 远超其他模型 [30] 比赛意义 - 国际象棋因规则明确但复杂度高(10^120种可能局面)成为测试AI决策能力的理想场景 重点考察涌现能力而非暴力计算 [21][23] - 网友普遍认为国际象棋是可靠评估AI能力的方式 其反映模型的一致性泛化能力而非领域特定训练 [24]
战报:马斯克Grok4笑傲AI象棋大赛,DeepSeek没干过o4-mini,Kimi K2被喊冤
量子位· 2025-08-06 08:14
比赛概况 - 首届Kaggle AI国际象棋竞赛由谷歌发起,旨在推广Kaggle游戏竞技场,首次比赛以国际象棋为主题[6] - 参赛模型包括OpenAI的o3和o4-mini、DeepSeek R1、Kimi K2 Instruct、Gemini 2.5 Pro和2.5 Flash、Claude Opus 4、Grok 4[7] - 比赛于8月5日至8月7日每天10:30(太平洋时间)直播,并邀请国际象棋特技大师中村光作为讲解[8][10] 首日赛况 - Grok 4表现最佳,被网友评价为"在战术策略和速度上超越所有其他模型",其与Gemini 2.5 Flash的对决中以完美4-0获胜[16][17] - OpenAI的o4-mini击败DeepSeek R1,后者开局强劲但最终因失误落败[20][21] - Gemini 2.5 Pro与Claude Opus 4的对局被评为当天最佳,双方展示高水平棋艺,但Claude出现失误而Gemini Pro分析冗长[23][24] - Kimi K2 Instruct表现最差,因反复走非法棋步被o3弃权击败[25] 半决赛对阵 - 挺入半决赛的模型为Gemini 2.5 Pro、Grok 4、ChatGPT的o4-mini和o3[12] - 网友关注焦点为o4-mini与o3的"内斗",以及Gemini 2.5 Pro对战Grok 4[13] 模型能力评估 - 国际象棋因规则明确但复杂度高(10^120种可能局面),成为测试AI决策能力和涌现能力的理想场景[31][36] - 网友认为Grok 4的优异表现体现前沿AI的一致性泛化能力,而非传统领域特定训练模式[38] - 赛前Manifold投票显示Gemini 2.5 Pro最被看好,但首轮后Grok 4支持率呈压倒性优势(22% vs 未明确比例)[42][44] 行业动态 - 马斯克借Grok 4表现进行PR,称其优异表现是"副作用"而非刻意训练结果[4] - 量子位将于8月7日举办AI沙龙,邀请百度文心快码、智谱、Kimi等厂商讨论AI Coding重构开发[46]
闹玩呢,首届大模型对抗赛,DeepSeek、Kimi第一轮被淘汰了
36氪· 2025-08-06 08:01
大模型国际象棋对抗赛首轮结果 - 谷歌发起首届大模型国际象棋对抗赛,参赛模型包括OpenAI的o4-mini和o3、DeepSeek的DeepSeek-R1、月之暗面的Kimi K2 Instruct、谷歌的Gemini 2 5 Pro和Gemini 2 5 Flash、Anthropic的Claude Opus 4以及xAI的Grok 4 [1] - 首轮比赛结果为Gemini 2 5 Pro、o4-mini、Grok 4和o3均以4-0的战绩分别击败Claude 4 Opus、DeepSeek R1、Gemini 2 5 Flash和Kimi k2,晋级半决赛 [1] - 比赛在Kaggle Game Arena平台进行,旨在探索大模型在动态竞争环境中的表现 [1] 各模型表现分析 - Grok 4表现最为亮眼,不仅以4-0全胜,还展现出精准捕捉无保护棋子的能力,被认为突破了当前大模型在象棋对弈中的三大关键短板 [21][24][27] - Gemini 2 5 Pro是唯一通过"将杀"获胜场次多于因违规告负场次的模型,但真实棋力尚不明确 [14] - o4-mini在与DeepSeek R1的对局中成功实现两次将军,但棋局质量存在断崖式下跌现象 [10][13] - o3轻松击败非推理模型Kimi K2 Instruct,Kimi k2在脱离开局理论后出现技术问题 [3][6][9] 行业观察 - 比赛暴露出大语言模型在象棋对弈中的三大关键短板:全局棋盘视觉化能力不足、棋子间互动关系理解有限以及合法着法执行问题 [27] - 赛前投票显示37%的参与者最看好Gemini 2 5 Pro [27] - 比赛结果引发科技界关注,xAI创始人埃隆・马斯克再次提及"国际象棋太过简单"的观点 [24]
谷歌约战,DeepSeek、Kimi都要上,首届大模型对抗赛明天开战
机器之心· 2025-08-05 04:09
比赛概述 - 一场为期3天的AI国际象棋比赛将于太平洋时间8月5日至7日举行,旨在通过实战检验前沿AI模型的真实性能[2] - 比赛基于谷歌推出的Kaggle Game Arena平台,这是一个公开的AI基准测试平台,支持策略游戏对战[6] - 组织方邀请了世界顶级国际象棋专家担任解说,并开源了游戏执行框架和环境以确保透明度[6][8] 参赛模型 - 共有8款前沿AI模型参赛,包括OpenAI的o4-mini和o3、DeepSeek的DeepSeek-R1、月之暗面的Kimi K2 Instruct、谷歌的Gemini 2.5 Pro/Flash、Anthropic的Claude Opus 4以及xAI的Grok 4[7] - 参赛模型均为行业顶流,包含两款中国开源模型,且对战双方性能旗鼓相当[5] 比赛机制 - 采用单败淘汰制,每场对决包含4局比赛,先获2分者晋级(胜局1分,平局0.5分),若2-2平局则加赛决胜[14] - 模型不得使用外部工具(如Stockfish引擎),且不会被告知合法走法列表[17] - 每步棋有60分钟超时限制,非法走法最多可重试3次,否则判负[17] 赛程安排 - 8月5日:8款模型进行4场初赛(每场4局)[17] - 8月6日:晋级的4款模型进行2场半决赛[17] - 8月7日:决赛日进行冠军争夺战[17] 平台意义 - 谷歌指出当前AI基准测试已难以跟上模型发展速度,Game Arena旨在通过动态对战提供更有效的性能评估[12] - 平台支持实时查看对阵表、动态排行榜及开源代码,未来将引入更多游戏以推动AI能力快速提升[8][12]