Seek .(SKLTY)

搜索文档
首届大模型象棋争霸赛:Grok 4与o3挺进决赛,DeepSeek、Kimi落败
36氪· 2025-08-07 06:16
比赛概述 - Google旗下Kaggle平台主办的"棋局竞技场"AI国际象棋表演赛半决赛中,Grok 4和o3分别击败Gemini 2.5 Pro和o4-mini,晋级决赛 [1] - 比赛为期三天,参赛者为八个大型语言模型(LLM),包括Grok 4(xAI)、Gemini 2.5 Pro(谷歌)、o4-mini(OpenAI)、o3(OpenAI)、Claude 4 Opus(Anthropic)、Gemini 2.5 Flash(谷歌)、DeepSeek R1(DeepSeek)和Kimi k2(月之暗面)[1] - 比赛采用单败淘汰制,规则聚焦AI对棋局的理解力与问题解决能力,不比算力 [1] 首日比赛结果 - 首日四场比赛均以"4-0"比分结束,Gemini 2.5 Pro、o4-mini、Grok 4和o3晋级半决赛 [3][11] - Gemini 2.5 Pro以4-0完胜Claude 4 Opus,展现稳健的棋盘掌控力 [12] - o4-mini以4-0击败DeepSeek R1,DeepSeek R1因连续失误落败 [14] - Grok 4以4-0击败Gemini 2.5 Flash,表现引发xAI创始人埃隆·马斯克在X平台上的热议 [19] - o3以4-0战胜Kimi k2,Kimi k2因连续四次无法作出合法移动而连输四局 [22] 半决赛表现 - 半决赛中,Grok 4与Gemini 2.5 Pro的对决以2-2平局进入加赛,Grok 4最终因平局胜权晋级 [8] - o3以4-0完胜其轻量版o4-mini,展现压倒性优势,并在第三局中走出两招妙棋 [5] - Chess.com指出此次赛事暴露出AI模型整体缺乏语境理解,难以执行基本战术序列等问题 [22] 决赛预告 - 决赛将于美国东部时间8月7日13时(北京时间8月8日1时)举行,由xAI的Grok 4对阵OpenAI的o3 [22] - Gemini 2.5 Pro与o4-mini将争夺三、四名 [22]
爆冷,首届大模型争霸,Grok 4下出“神之一手”?DeepSeek、Kimi惨遭淘汰
36氪· 2025-08-07 01:16
赛事概况 - 谷歌旗下Kaggle平台举办首届全球AI国际象棋争霸赛 旨在通过游戏竞技评估通用大模型智能水平[1][3] - 参赛模型包括8款顶级语言模型:闭源阵营为Gemini 2.5 Pro、OpenAI o4-mini、Grok 4、OpenAI o3、Claude 4 Opus、Gemini 2.5 Flash 开源阵营为DeepSeek R1和Kimi K2 Instruct[1] - 比赛采用单败淘汰制 首日进行8进4淘汰赛 胜者以4-0全胜战绩晋级半决赛[2] 首轮赛果 - OpenAI o4-mini以4-0击败DeepSeek R1 后者在脱离开局模板后出现瞄准不存在棋子、防守无威胁空格等严重认知错误[11][13] - OpenAI o3因对手Kimi K2连续4局非法走子自动晋级 最短对局不足8回合 Kimi K2在脱离套路后出现棋盘误读[9][10] - Gemini 2.5 Pro以4-0淘汰Claude 4 Opus 后者在第十回合主动敞开防线送出突破口 成为首轮最接近真实对抗的对局[14][15][16] - Grok 4以4-0碾压Gemini 2.5 Flash 被业内评为开赛最佳表现 其精准识别弱点能力获马斯克在X平台转发[17][20] 赛事价值 - 游戏竞技具备无限扩展性和思维可视化优势 可完整追踪模型决策链并评估策略推理能力[3] - 明确输赢信号为AI智能评估提供理想试验场 尤其考验复杂推理任务中的长期规划与动态适应能力[21] - 真实评分标准基于数百场未公开对局 本次公开赛仅为测试通用智能的开局小规模测试[22] 赛程安排 - 半决赛对阵为OpenAI o3-mini对战同门o3 Gemini 2.5 Pro对战Grok 4[3] - 半决赛将于太平洋时间次日上午10:30举行[5]
战报:马斯克Grok4笑傲AI象棋大赛,DeepSeek没干过o4-mini,Kimi K2被喊冤
36氪· 2025-08-06 08:41
比赛概况 - 谷歌举办首届Kaggle AI国际象棋竞赛 旨在测试AI的涌现能力 比赛时间为8月5日至8月7日每天10:30(太平洋时间)并全程直播 [5][6] - 参赛模型包括OpenAI的o3和o4-mini、DeepSeek R1、Kimi K2 Instruct、Gemini 2.5 Pro和2.5 Flash、Claude Opus 4、Grok 4共8个顶级模型 [6] - 直播特邀国际象棋特技大师中村光担任讲解 其为全美冠军及GM头衔持有者 现任EWC国际象棋锦标赛季军 [7] 赛程安排 - 比赛周为8月4日至10日 其中周二至周四为AI展览锦标赛 具体时段为EDT时间10:30 AM或1:00 PM(对应印度时间9:00 PM或11:30 PM) [9] - 首日比赛后 Gemini 2.5 Pro、Grok 4、ChatGPT的o4-mini和o3晋级半决赛 [9][12] 首日赛果分析 - 所有八分之一决赛均以4-0的完美比分结束 体现明显实力差距 [12] - Grok 4表现最佳 被网友评价为"在战术策略和速度上超越所有其他模型" 其与Gemini 2.5 Flash对局中展现GM级水平 轻松获胜 [13][14] - OpenAI o4-mini战胜DeepSeek R1 虽双方均有失误 但o4-mini率先抓住R1的推理错误及棋盘局势误判 [16] - Gemini 2.5 Pro与Claude Opus 4的对局被评为当日最佳 两者展示高水平棋艺 Gemini Pro展现强大战术视野但分析冗长 Claude则出现失误 [18] - Kimi K2 Instruct因反复走非法棋步被o3弃权击败 成为最快结束的四分之一决赛 有观点认为Kimi作为非推理模型需长思考才能发挥性能 [20] 模型预期变化 - 赛前网友投票显示Gemini 2.5 Pro以22%支持率最被看好 o4-mini以3%支持率紧随其后 [28][31] - 首日后Grok 4支持率呈现压倒性优势 远超其他模型 [30] 比赛意义 - 国际象棋因规则明确但复杂度高(10^120种可能局面)成为测试AI决策能力的理想场景 重点考察涌现能力而非暴力计算 [21][23] - 网友普遍认为国际象棋是可靠评估AI能力的方式 其反映模型的一致性泛化能力而非领域特定训练 [24]
DeepSeek终于把OpenAI逼急了
凤凰网· 2025-08-06 08:21
OpenAI战略转向 - 公司发布首个开源语言模型GPT-OSS 包括120B和20B两个版本 [1][3] - GPT-OSS-120B采用MoE架构 总参数1170亿 激活参数51亿 单张80GB GPU即可运行 性能接近闭源o4-mini [4] - GPT-OSS-20B总参数210亿 激活参数36亿 16GB内存设备可流畅运行 性能接近o3-mini [4] - 模型支持多语种多领域训练数据 可免费商用 [4][5] 中国开源模型发展 - DeepSeek通过模型结构创新大幅降低成本 被业内称为"AI届拼多多" [7] - 阿里通义千问近三个月发布6波更新 新增55个以上模型版本 [8] - 中国形成"开源四杰"生态格局 包括通义Qwen Kimi K2 智谱GLM-4.5 腾讯混元HunyuanWorld-1 [8] - 中国开源模型在编程 数学 多语言等领域逼近或超越OpenAI闭源模型 [8] 行业竞争格局变化 - OpenAI从闭源收费模式转向开放协作生态 [6] - Meta考虑放弃开源策略 转向开发闭源模型 [9] - OpenAI采取员工信息保护措施 防止人才被挖角 [9] - 中国开源模型的爆发式发展触动OpenAI和硅谷神经 [1][9]
闹玩呢,首届大模型对抗赛,DeepSeek、Kimi第一轮被淘汰了
36氪· 2025-08-06 08:01
大模型国际象棋对抗赛首轮结果 - 谷歌发起首届大模型国际象棋对抗赛,参赛模型包括OpenAI的o4-mini和o3、DeepSeek的DeepSeek-R1、月之暗面的Kimi K2 Instruct、谷歌的Gemini 2 5 Pro和Gemini 2 5 Flash、Anthropic的Claude Opus 4以及xAI的Grok 4 [1] - 首轮比赛结果为Gemini 2 5 Pro、o4-mini、Grok 4和o3均以4-0的战绩分别击败Claude 4 Opus、DeepSeek R1、Gemini 2 5 Flash和Kimi k2,晋级半决赛 [1] - 比赛在Kaggle Game Arena平台进行,旨在探索大模型在动态竞争环境中的表现 [1] 各模型表现分析 - Grok 4表现最为亮眼,不仅以4-0全胜,还展现出精准捕捉无保护棋子的能力,被认为突破了当前大模型在象棋对弈中的三大关键短板 [21][24][27] - Gemini 2 5 Pro是唯一通过"将杀"获胜场次多于因违规告负场次的模型,但真实棋力尚不明确 [14] - o4-mini在与DeepSeek R1的对局中成功实现两次将军,但棋局质量存在断崖式下跌现象 [10][13] - o3轻松击败非推理模型Kimi K2 Instruct,Kimi k2在脱离开局理论后出现技术问题 [3][6][9] 行业观察 - 比赛暴露出大语言模型在象棋对弈中的三大关键短板:全局棋盘视觉化能力不足、棋子间互动关系理解有限以及合法着法执行问题 [27] - 赛前投票显示37%的参与者最看好Gemini 2 5 Pro [27] - 比赛结果引发科技界关注,xAI创始人埃隆・马斯克再次提及"国际象棋太过简单"的观点 [24]
OpenAI发布开源模型“王者归来”,DeepSeek剧情会反转吗
虎嗅· 2025-08-06 03:47
最大的开源社区Hugging Face创始人兼CEO Clement Delangue称之为"王者归来"。 "这就像剧情反转, 像是一场王者归来, OpenAI终于重新发布开源模型gpt-oss-120b和gpt-oss-20b。这是其自从GPT-2之后,首次发布开源语言模型。 这也是上半年DeepSeek-R1发布,引发中国掀起一股开源狂潮,7月份中国K2、GLM-4.5、Step-3及Qwen3更新版本等密集发布之后,美国AI实验室首次发 出最强开源模型。 Llama4上半年发布失败,美国朝野一致对开源AI落后于中国感到焦虑之际,OpenAI看起来要扳回一局。 像是某件大事的开端。 让我们一起推进开源AI吧" gpt-oss vs. DeepSeek StabilityAI创始人Emad Mostaque等人,对比了gpt-oss与DeepSeek: 训练效率:gpt-oss-120b每个token激活约5.1B参数,而DeepSeek是37B,少了7倍以上,因此可以处理超过5倍的tokens,即大约80万亿tokens(作为参考, Qwen3使用了30万亿)。 计算消耗:gpt-oss比DeepSeek ...
OpenAI发布低成本模型 与Meta(META.US)和DeepSeek正面竞争
智通财经网· 2025-08-06 01:53
智通财经APP获悉,OpenAI周二发布了自2019年推出GPT-2以来首批开放权重语言模型。这两款纯文本 模型分别命名为gpt-oss-120b和gpt-oss-20b,旨在为开发者、研究人员和企业提供更易运行和定制的低成 本选项。 当人工智能模型的参数(即训练过程中优化输出和预测能力的要素)公开可用时,该模型即被视为开放权 重。此类模型虽能提供透明度和控制权,但不同于开源模型——后者允许用户完全获取并修改源代码。 近年来,Meta、微软支持的Mistral AI以及中国初创企业DeepSeek等公司也相继发布了开放权重模型。 此次发布备受期待,部分原因是公司曾多次推迟上线。OpenAI CEO萨姆·奥尔特曼七月在X平台发文称 需要更多时间"进行额外安全测试并审查高风险领域",此前六月他也明确表示模型不会当月发布。 OpenAI周二声明已对开放权重模型实施全面安全训练与测试。在预训练阶段清除了有害的化学、生 物、放射性与核武器相关数据,并模拟了恶意行为者可能进行的模型微调。 测试表明,经恶意调优的模型无法达到其"准备框架"设定的高能力阈值——这是该公司衡量和防范危害 的评估体系。OpenAI还透露已邀请三个 ...
谁在往“DeepSeek们”的回答里塞广告?
36氪· 2025-08-04 09:37
AI搜索用户增长与广告渗透 - 全球AI搜索用户量从2024年1月的3.1亿增长至2025年2月的19.8亿,增长率达538.7% [1] - 用户行为从传统搜索转向AI问答,如DeepSeek、豆包等平台回答中频繁出现品牌名和超链接 [1][5] - 社交平台用户质疑AI回答中的广告植入现象,例如香港旅游攻略中直接推荐导游联系方式 [5][7] AI回答商业化与行业应对 - 腾讯元宝曾声明不嵌入商业搜索结果,但实际回答中引用第三方平台内容(如58到家)引发争议 [7] - 部分AI平台(如星野)在对话中直接插入游戏下载链接等显性广告 [9] - 平台技术负责人表示已关注GEO乱象,正对低质AIGC内容进行筛查降权 [14] GEO营销生态崛起 - GEO(生成式引擎优化)成为广告行业新热点,通过内容优化影响AI回答中的品牌露出 [10] - 行业类比SEO,GEO市场规模2024年估测21亿元,2027年预计达242亿元,未来五年或撬动3000亿元价值 [14] - 服务商报价体系成型,如50条词条月费6000元,500条20000元,承诺60%词条完成率 [12][13] GEO服务模式与效果争议 - 服务商通过结构化内容、语义相关性优化等策略提升品牌在AI回答中的排名 [13] - 效果衡量标准不统一,部分承诺100%推荐,部分以品牌露出次数为指标 [14] - 行业尚不成熟,存在"没效果退款"等非标准化保证 [14]
爆火仅半年,DeepSeek在银行业已泯然众模型?三大障碍成拦路虎
凤凰网· 2025-08-04 03:42
银行业对DeepSeek模型的应用现状 - 银行业整体对DeepSeek模型的应用效果不如预期 未诞生基于该模型的杀手级应用 后续影响仍需观察 [1] - 银行业金融数据复杂性导致DeepSeek处理能力不足 模型为通用型而非金融专用型 与银行原有技术路线适配性不高 [1][7] 银行业应用态度变化轨迹 - DeepSeek从"最独特模型"转变为"众多大模型中的一个" 中小银行更积极跟进 大型商业银行热情明显减弱 [3][4] - 有关部门要求大型商业银行不得大规模宣传DeepSeek应用 需强调金融大模型自主研发 [4] - 建设银行与工商银行于7月28日分别接入阿里巴巴AI技术 工商银行商户风控系统正式接入通义千问大模型 [6] 具体应用障碍分析 - 银行金融数据存在维度差异和质量高低问题 DeepSeek对复杂底层数据处理能力不足 衍生判断难以见效 [7] - 算力制约问题突出 全面推广需高性能芯片支持 免费版DeepSeek相比国产大模型无显著优势 [8] - 金融行业对差错容忍度极低 AI投顾分析存在明显问题 智能风控应用效果未达预期 [9] 中小银行与大银行差异 - DeepSeek帮助中小银行解决"有无问题" 拉近与大银行技术差距 采购成本从动辄上千万变为免费 [9] - 中小银行研发热情较高 但上半年银行业对DeepSeek发展过于乐观 杀手级应用出现时间难以判断 [9] 行业发展趋势 - 银行业持续加大金融科技投入趋势不变 不会像金融"元宇宙"那样昙花一现 [2] - 技术团队尝试将原有金融小模型与DeepSeek通用大模型结合改造 但需要时间完成 [8]
AI周报 | DeepSeek斩获ACL 2025最佳论文;库克称苹果计划“大幅”增加AI投资
第一财经· 2025-08-03 01:16
ACL 2025最佳论文 - DeepSeek与北京大学联合发表的论文荣获ACL 2025最佳论文奖,提出原生稀疏注意力(NSA)机制,为自然语言处理领域效率突破提供新思路 [1] - 本届ACL大会总投稿量突破8000篇创历史新高,主会论文接收率20.3%,中国作者首次在第一作者占比中过半达51.3% [1] - NSA机制包含压缩模块、Blockwise选择模块和滑动注意力三大组件,被评价为"针对transformer attention的、简单有效、高度硬件友好的token数量压缩算法" [2] 企业AI模型市场格局 - Anthropic在企业大型语言模型市场份额达32%,超越OpenAI的25%,与两年前OpenAI占50%、Anthropic仅12%形成鲜明对比 [3] - Claude模型在编码、文案编写、游戏NPC等领域表现成为开发者首选,OpenAI市场份额自2023年起大幅下滑 [4] - OpenAI即将发布GPT-5,行业期待其通过下一代模型实现市场反攻 [4] 大模型开源动态 - 阶跃星辰开源基础大模型Step 3,采用MoE架构总参数量321B,在MMMU等评测集同类型开源模型中领先 [5] - 月之暗面发布万亿参数开源模型Kimi K2,腾讯开源混元3D世界模型1.0并计划后续开源端侧混合推理大模型 [5] 百度搜索智能体战略 - 百度搜索电脑端测试开放智能体应用入口,集成文心智能体平台、外部AI应用及自研应用,预计很快全量开放 [6] - 该举措标志着搜索从传统信息检索迈向智能交互服务,为AI应用开辟新分发渠道 [6][7] 具身智能行业现状 - 腾讯张正友认为具身智能行业尚未出现"iPhone时刻",当前人形机器人主要用于数据采集、科研等场景 [8] - 行业需要突破双足人形形态限制,未来会有特定领域实现规模化应用带动成本下降 [8] 算力技术发展 - WAIC展会上华为、曦智科技等厂商展出超节点方案,通过整合算力芯片资源构建低延迟高带宽算力实体 [9] - 超节点技术成为应对大模型参数增长和算力集群扩大的重要解决方案 [9] 科技巨头财报表现 - Meta第二季度营收475亿美元同比增长22%,净利润183亿美元同比增长36%,AI技术提升广告系统效率 [10] - 微软第四财季营收764亿美元同比增长18%,智能云业务营收299亿美元同比增长26%,市值突破4万亿美元 [11] - 两家公司均加大AI领域资本支出,Meta上调2025年资本开支预期至660-720亿美元 [10][11]