数学推理
搜索文档
DeepSeek上新:开源模型首达IMO金牌水平,AI推理告别“死记硬背”
观察者网· 2025-11-28 07:17
模型发布与核心性能 - 公司于本周三晚间低调发布专注于数学推理与定理证明的新模型DeepSeek-Math-V2,参数量为685B [1] - 在2025年国际数学奥林匹克竞赛(IMO 2025)和2024年中国数学奥林匹克竞赛(CMO 2024)中,模型均达到金牌水平 [1] - 在普特南(Putnam 2024)数学竞赛中,模型通过扩展测试计算取得118分(满分120分)的近乎满分成绩,远超人类选手约90分的历史最高分记录 [1] 具体竞赛成绩 - 在IMO 2025竞赛中,模型在P1至P5题上取得83.3%的成绩 [3] - 在CMO 2024竞赛中,模型在P1、P2、P4、P5、P6题上取得73.8%的成绩 [3] - 在Putnam 2024竞赛中,模型在A1至B4、B5、B6题上取得98.3%的成绩 [3] 基准测试对比 - 在IMO-ProofBench基准测试的基础集上,模型得分接近99%,大幅领先谷歌Gemini DeepThink (IMO Gold) 的89% [4] - 在难度更高的进阶集上,模型得分61.9%,略低于Gemini DeepThink的65.7%,但作为开源模型已无限接近闭源商用模型的顶尖水平 [4] - 在自主构建的91个CNML级别问题测试中,模型在代数、几何、数论、组合学和不等式等所有类别中,均超越了GPT-5-Thinking-High和Gemini 2.5-Pro的表现 [4] 核心技术革新 - 模型采取严苛的“死磕过程”策略,必须展示清晰、严谨的分步推导过程,只要中间步骤出现逻辑断裂,即便最终结果正确也不给予正向反馈,以解决“推理假象”问题 [5][6] - 公司独创多层级的“元验证”机制,通过类似“套娃”的监督架构(学生-老师-校长),将评分系统的置信度从0.85提升至0.96,极大保证训练数据质量 [9] - 模型展现出类似人类“三省吾身”的自我反思能力,在处理高难度定理证明时,能通过测试时间计算进行停顿和自省,一旦发现逻辑漏洞会自主推翻重写 [9] 行业影响与市场定位 - 模型发布在海外开发者社区引发强烈反响,被舆论称为“鲸鱼回归”,以10个百分点的优势在基础基准上击败谷歌获奖模型,打破顶级推理模型长期被闭源巨头垄断的局面 [11] - 行业推测公司极有可能将这一逻辑验证能力迁移至编程模型,届时将对现有代码辅助工具市场产生巨大冲击 [11] - 模型代码与权重已在Hugging Face及GitHub平台完全开源,为开源社区提供了通过构建严谨验证机制而非单纯堆砌算力来实现机器智能质变的技术演进路线 [11]
DeepSeek上新,“奥数金牌水平”
第一财经· 2025-11-28 00:40
模型发布与性能表现 - 公司于11月27日在Hugging Face上开源数学模型DeepSeek-Math-V2,该模型是行业首个达到国际奥林匹克数学竞赛金牌水平且开源的模型[3] - 在IMO-ProofBench基准测试中,模型在IMO 2025题目上取得83.3%的成绩,在CMO 2024上取得73.8%的成绩,在Putnam 2024上取得98.3%的成绩[4] - 在Basic基准上,模型取得近99%的高分,远高于第二名谷歌Gemini DeepThink的89%;在更难的Advanced子集上,模型得分为61.9%,略低于Gemini DeepThink的65.7%[5] 技术创新与研究方向 - 模型从结果导向转向过程导向,通过自我验证方法教会AI像数学家一样严谨审查证明过程,不依赖大量数学题答案数据[8] - 该技术突破当前AI数学推理的研究局限,即正确最终答案不能保证推理过程正确的问题,展示了强大的定理证明能力[8] - 公司在技术论文中指出,可自我验证的数学推理是可行研究方向,可能有助于开发更强大的数学AI系统[8] 行业影响与市场反应 - 海外市场反应积极,有评论称"鲸鱼终于回来了",并认为公司以10个百分点优势击败谷歌IMO Gold获奖模型超出预期[9] - 行业期待公司的下一步动作,特别是在头部厂商如OpenAI、xAI、谷歌相继发布新模型后,市场关注公司旗舰模型的更新计划[10]
DeepSeek上新,“奥数金牌水平”
第一财经· 2025-11-28 00:35
模型发布与性能表现 - 公司于2025年11月27日晚在Hugging Face上开源新模型DeepSeek-Math-V2,这是行业首个达到国际奥林匹克数学竞赛金牌水平且开源的模型[3] - 在Basic基准上,该模型取得近99%的高分,远高于第二名谷歌Gemini Deep Think的89%[5] - 在更难的Advanced子集上,该模型分数为61.9%,略逊于谷歌Gemini Deep Think的65.7%[5] 技术创新与突破 - 模型从结果导向转向过程导向,具备强大的定理证明能力,不依赖大量数学题答案数据,而是教会AI像数学家一样严谨地审查证明过程[8] - 该技术突破当前AI数学推理的研究局限,即正确的最终答案不能保证正确的推理,通过自我验证来扩展测试时间计算,特别是针对没有已知解决方案的开放问题[8] - 模型在IMO 2025和CMO 2024上取得金牌级成绩,在Putnam 2024上通过扩展测试计算实现接近满分的118/120分[8] 行业影响与市场反应 - 海外市场反应积极,有评论称“鲸鱼终于回来了”,并以10个百分点优势击败谷歌的IMO Gold获奖模型DeepThink[9] - 行业头部厂商模型近期密集迭代,包括OpenAI发布GPT-5.1、xAI发布Grok 4.1、谷歌发布Gemini 3系列,市场期待公司下一步动作[9] - 外界更关注公司旗舰模型的更新时间,行业期待“鲸鱼”的下一个动作[9]
DeepSeek上新!首个奥数金牌水平的模型来了
第一财经· 2025-11-28 00:22
模型发布与核心成就 - 公司于11月27日在Hugging Face上开源数学模型DeepSeek-Math-V2,该模型是行业首个达到国际奥林匹克数学竞赛金牌水平且开源的模型[1] - 模型在IMO-ProofBench基准及近期数学竞赛中表现出色,部分性能优于谷歌旗下的Gemini DeepThink模型[1] - 模型在Basic基准上取得近99%的高分,远高于第二名Gemini Deep Think (IMO Gold)的89%分数[5] 具体性能表现 - 在IMO 2025的P1至P5问题上取得83.3%的成绩[4] - 在CMO 2024的P1、P2、P4、P5、P6问题上取得73.8%的成绩[4] - 在Putnam 2024的A1至B4、B5、B6问题上取得98.3%的成绩[4] - 在更难的Advanced子集上得分为61.9%,略低于Gemini Deep Think (IMO Gold)的65.7%[5] - 在Putnam 2024上通过扩展测试计算实现118/120接近满分的成绩[8] 技术创新与研究方向 - 模型从结果导向转向过程导向,展示了强大的定理证明能力,不依赖大量数学题答案数据[8] - 核心创新在于教会AI像数学家一样严谨地审查证明过程,实现自我验证,从而在没有人类干预下提升解决高难度数学证明题的能力[8] - 公司提出自我验证对于扩展测试时间计算尤为重要,特别是针对没有已知解决方案的开放问题[8] - 可自我验证的数学推理被证明是可行的研究方向,可能有助于开发更强大的数学AI系统[8] 行业影响与市场反应 - 海外反应积极,有观点认为公司以10个百分点的优势击败谷歌的IMO Gold获奖模型DeepThink超出预期[9] - 行业期待公司的旗舰模型更新,市场关注"鲸鱼"的下一个动作[10] - 在OpenAI发布GPT-5.1、xAI发布Grok 4.1、谷歌发布Gemini 3系列后,行业关注公司的下一步动作[10]
Qwen又立功,全球最快开源模型诞生,超2000 tokens/秒
36氪· 2025-09-10 12:19
产品发布与定位 - 阿联酋穆罕默德·本·扎耶德人工智能大学与初创公司G42 AI合作推出开源大模型K2 Think [1] - 该模型定位为全球最快的开源大模型及有史以来最先进的开源AI推理系统 [1][2] - K2 Think基于Qwen 2.5-32B模型打造,参数规模为320亿 [1] 性能表现 - 模型实测生成速度极高,在处理IMO试题时达到2730.4 tokens/秒,处理英文单词问题时保持2224.7 tokens/秒 [3][4] - 所有测试问题均能保持超过2000 tokens/秒的生成速度,且答案正确 [7] - 在多项数学基准测试中表现优异,例如AIME'24得分90.83分,AIME'25得分81.24分,HMMT25得分73.75分,Omni-MATH-HARD得分60.73分 [9] 技术特点与创新 - 模型专注于数学推理能力开发,目前尚不支持文档传输及多模态功能 [7] - 团队通过六项技术创新实现高性能:长链路思维的监督微调、可验证奖励的强化学习、推理前的智能规划、推理时扩展、推测解码以及硬件加速 [12][14] - 硬件方面依托Cerebras WSE晶圆级引擎,实现单请求每秒超2000 tokens的生成速度 [14] 行业影响与比较 - 尽管参数规模仅为32B,但官方宣称其性能可与OpenAI和DeepSeek的旗舰推理模型相媲美 [9] - 模型吞吐量超过典型GPU部署的10倍以上 [1]
14B打败671B,微软rStar2-Agent在数学推理上超过DeepSeek-R1
36氪· 2025-09-02 07:36
模型性能突破 - 微软研究院开发的rStar2-Agent-14B模型仅14B参数规模,在数学推理基准测试中达到前沿性能,超越671B参数的DeepSeek-R1模型[2][17] - 该模型在AIME24测试中准确率达到80.6%,分别超过o3-mini (medium)、DeepSeek-R1和Claude Opus 4.0 (thinking) 1.0%、0.8%和3.6%[19] - 在AIME25和HMMT25测试中分别取得69.8%和52.7%的准确率,展现稳定一致的强大推理能力[18][19] 技术创新亮点 - 采用主动式强化学习方法,使模型能够与Python编程工具环境交互,通过反馈信号进行推理验证和学习[1][6] - 构建高吞吐量代码执行环境,支持45K个并发工具调用,平均反馈时间仅0.3秒[10] - 提出GRPO-RoC训练算法,通过非对称采样保留故障模式作为负向信号,同时强调高质量成功案例[12][14] - 采用负载均衡调度程序动态分配GPU资源,在64块MI300X GPU上仅用一周完成训练[10][12] 训练效率优势 - 仅需510个强化学习步骤即可实现前沿数学推理能力,大幅降低训练成本[16] - 采用多阶段强化学习训练,将每个阶段长度限制在8K→12K范围,避免大规模扩展至16K→48K[15] - 从非推理SFT阶段开始训练,避免过拟合并保持初始响应简短,使强化学习更有效培养推理能力[14] 泛化能力表现 - 尽管仅使用数学领域训练,在GPQA-Diamond科学推理基准上以60.9%准确率超越DeepSeek-V3的59.1%[22] - 在BFCL v3智能体工具使用任务达到60.8%准确率,在IFEval和Arena-Hard通用基准测试中分别取得83.4%和86.6%的竞争力表现[22]
14B打败671B!微软rStar2-Agent在数学推理上超过DeepSeek-R1
机器之心· 2025-09-02 01:27
核心观点 - 微软研究院开发了rStar2-Agent主动式强化学习方法,通过高效基础架构、GRPO-RoC算法和优化训练方案,使14B参数模型在数学推理任务上达到或超越671B参数模型的性能 [2][12][25] 环境与问题描述 - 研究使用Python编程工具和解释器作为环境,拓宽模型行动空间并支持中间步骤验证 [6][9] - 环境复杂性引入噪声,错误代码导致反馈延迟和token浪费,仅结果奖励机制加剧低质量推理轨迹问题 [9] - 大规模训练需处理数万个并发工具调用,对基础设施要求极高 [9][10] 技术方案创新 - 构建高吞吐量代码环境,支持45K并发工具调用且平均反馈时间仅0.3秒 [14] - 采用动态负载均衡调度程序,根据GPU键值缓存容量分配请求以提升计算利用率 [15] - 提出GRPO-RoC算法:通过非对称采样保留故障模式作为负向信号,筛选高质量正向轨迹 [16][18] - 训练方案从非推理SFT开始,避免过拟合并保持响应简短,后续通过多阶段强化学习逐步提升难度 [21][22] 性能表现 - rStar2-Agent-14B在AIME24准确度达80.6%,超越o3-mini(medium)1.0%、DeepSeek-R1 0.8%和Claude Opus 4.0 3.6% [26] - AIME25准确度69.8%,HMMT25达52.7% [26] - 平均响应长度显著缩短:AIME24仅9339.7 token(对比DeepSeek-R1-Zero的14246.8 token) [29] - 泛化能力强:GPQA-Diamond科学推理达60.9%(超越DeepSeek-V3),BFCL v3工具使用任务60.8% [29] 训练效率 - 使用64块MI300X GPU一周完成训练 [16] - 仅需510个强化学习步骤达到前沿性能,远低于同类方法(如MiMo需175K步骤) [23][24]
4B小模型数学推理首超Claude 4,700步RL训练逼近235B性能 | 港大&字节Seed&复旦
量子位· 2025-07-09 01:18
模型性能突破 - Polaris通过Scaling RL技术使4B模型在数学推理任务(AIME25得分79.4,AIME24得分81.2)超越商业大模型如Claude-4-Opus和Seed-1.5-thinking [1] - 仅用700步RL训练即让Qwen3-4B接近其235B版本的表现 [5] - 模型轻量化设计支持消费级显卡部署 [2] 训练方法论创新 - 提出"镜像J"数据分布理论:构建轻微偏向难题的分布可优化不同能力基模型的训练效果 [10] - 采用动态数据更新策略:删除训练过程中准确率过高的样本以维持挑战性 [13] - 实现多阶段温度调整:通过控制探索区温度初始化,动态维持60分多样性水平 [32][33] 技术实现细节 - 引入长度外推技术:应用YaRN方法将32K以上长文本准确率从26%提升至50% [41][43] - 优化采样温度区间:划分鲁棒生成区/控制探索区/性能崩塌区,打破t=0.6或1.0的行业惯例 [28] - 采用渐进式上下文窗口扩展:Qwen3-4B需直接从40K长度启动训练以避免性能塌陷 [52] 开源生态建设 - 完整公开训练数据/模型/代码,包括Huggingface模型库和GitHub仓库 [3][53] - 验证Scaling RL对前沿开源模型(如Qwen3)的普适性提升效果 [5] - 提出token利用效率概念:不同基模型对响应长度的敏感度存在显著差异 [51]
高考数学斩获139分!小米7B模型比肩Qwen3-235B、OpenAI o3
机器之心· 2025-06-16 05:16
大模型数学能力评测 - 七个大模型参与2025年数学新课标I卷测试,Gemini 2.5 Pro以145分位列第一,Doubao和DeepSeek R1以144分并列第二 [2] - 小米7B参数小模型MiMo-VL表现突出,总分139分与Qwen3-235B持平,仅比OpenAI o3低1分 [4] - MiMo-VL在7B参数多模态模型中优势显著,较同类Qwen2.5-VL-7B高出56分 [5] 细分题型表现 - 客观题部分(73分):MiMo-VL单选题得35分(总分40),多选题和填空题均获满分 [8][10][11] - 解答题部分(77分):MiMo-VL得71分位列第五,超越hunyuan-t1-latest和文心X1 Turbo [12] - 测试方法差异:MiMo-VL和Qwen2.5-VL-7B采用截图输入,其他模型使用文本Latex输入 [6] 小米MiMo-VL技术突破 - 模型基于MiMo-7B升级,在数学推理和代码竞赛中超越OpenAI o1-mini和阿里QwQ-32B-Preview [15] - 通过RL训练后,MiMo-7B-RL-0530版本达到与DeepSeek R1和OpenAI o3-mini相近水平 [16] - 多模态能力显著:在OlympiadBench等数学竞赛中领先10倍参数的Qwen-2.5-VL-72B和GPT-4o [20] 技术实现路径 - 采用混合在线强化学习算法(MORL),整合文本推理与多模态感知反馈信号 [27][29] - 预训练数据达2.4T tokens,涵盖图片-文本对、视频-文本对等多元数据类型 [28] - 模型已全面开源,包括技术报告、权重和评估框架 [32][33] 行业竞争格局 - 开源模型MiMo-VL-7B在内部评测中超越GPT-4o成为开源模型第一 [24] - 参数效率突破:7B模型性能比肩235B参数的Qwen3和闭源o3模型 [13][16] - 多模态赛道创新:GUI Grounding任务表现媲美专用模型 [18]
32B本地部署!阿里开源最新多模态模型:主打视觉语言,数学推理也很强
量子位· 2025-03-25 00:59
阿里通义千问Qwen2.5-VL-32B-Instruct发布 - 公司发布Qwen2.5-VL-32B-Instruct视觉语言模型,进一步扩充开源家族产品线[1][2] - 新模型尺寸为32B,填补了此前3B、7B和72B之间的空白,兼顾本地运行能力与性能表现[2][3] - 通过强化学习优化,模型在文本能力上达到同规模SOTA水平,部分基准测试甚至超越72B版本[4] 模型技术性能突破 - 具备精细化图像理解与推理能力,可结合时间、距离、限速等要素进行多步骤逻辑推算[5] - 数学推理能力显著提升,能完成几何角度计算等复杂问题,分步骤推导过程清晰[8][9][10][11] - 图像解析和视觉逻辑推导任务中表现出更高准确性与细粒度分析能力[5][13] 行业影响与用户反馈 - 模型已在Hugging Face平台开源,支持在Qwen Chat直接体验[14][15] - 技术社区快速响应,MLX Community已有用户成功运行[16] - Hacker News网友热议开源策略,认为此举验证了开源模式优势[17] 行业动态观察 - 公司近期与DeepSeek多次同步发布新模型,引发行业对协同策略的关注[18] - 模型发布节奏显示国内AI企业技术迭代加速,形成竞争性创新格局[1][18]