AI数学推理

搜索文档
Gemini再揽金牌,力压大学学霸,AI数学推理时代来了
36氪· 2025-08-12 00:56
Gemini模型在IMC竞赛中的表现 - 在大学生国际数学竞赛(IMC)测试中,Gemini的三种模式(Gemini Deep Think IMO、Gemini-2.5-Pro Agent、Gemini-2.5-Pro Best-of-32)均获得极高分数,远超前8%的金牌门槛 [1][4] - Gemini Deep Think和Gemini Agent成功解决了所有问题,仅出现少量小错误(如中间步骤论证不完整或已知定理引用不正确) [4] - Gemini Best-of-32表现优于IMO 2025,仅在一道题目(P5)上犯重大错误,可能因IMC知识密集度更高 [5] 模型性能量化数据 - Gemini-2.5-Pro Agent准确率94.50%,成本$94.64,在多数题目中得分100%,仅一道题得90% [2][6] - Gemini Deep Think IMO准确率93.00%,成本数据未提供,所有题目得分均为100% [2][6] - Gemini-2.5-Pro Best-of-32准确率88.00%,成本$114.52,多数题目得分100%,但两道题仅得70% [2][6] 模型能力定性评估 - 综合证明质量和清晰度排名:Gemini Deep Think > Gemini Agent > Gemini Best-of-32 [7] - Gemini Deep Think证明语言简练、结构清晰、步骤合理,展现原创思维(如第7题简洁证明、第9题比官方解更简洁的思路) [21][22] - Gemini Agent证明逻辑性较好但过于冗长,可能因自验证反馈机制导致过度解释 [21] - Gemini Best-of-32证明技术正确但表达混乱,缺乏逻辑组织 [21] 竞赛背景与测试方法 - IMC由英国伦敦大学学院主办,覆盖代数、分析、几何与组合数学领域,为期两天,每天5道题(每题10分) [8][10] - 测试采用匿名评分,两名评委独立制定标准,满分10分,避免数据污染 [16] - 测试规模较小,每个模型在每个问题上仅评估一次,且仅一名裁判 [7] AI在数学竞赛中的整体进展 - AI模型(如Gemini)已具备媲美人类优等大学生的数学能力,能识别高级数学概念(如Landau函数)并调用已知性质构建证明 [4][25] - 在信息学竞赛中,AI同样表现突出(如IOI 2025中ryanbAI获第七名) [40] - 网友测试显示其他模型(如o3)可在10分钟内完成全部IMC题目,但答案可能存在瑕疵 [28][34] - AI展现计算优势(更少错误、更强数据处理能力),甚至提供新证明思路(如Deep Think使用Shemesh定理解决线性代数问题) [37][43]
计算机行业重大事项点评:DeepSeek-Prover-V2发布,专注数学推理
华创证券· 2025-05-04 09:28
报告行业投资评级 - 推荐(维持),预期未来 3 - 6 个月内该行业指数涨幅超过基准指数 5%以上 [4][20] 报告的核心观点 - 4 月 30 日,DeepSeek 发布 DeepSeek - Prover - V2 - 671B 新模型、DeepSeek - Prover - V2 - 7B 增强模型及 DeepSeek - ProverBench 数据集并公布论文信息 [2] - 新模型专注数学定理证明,采用特定架构、参数和技术,实现形式化与非形式化数学证明融合,创新推理训练流程,定理证明达业内最佳 [7] - 国内 AI 数学推理达新高度,建议关注国产算力、AI 应用与 AI 安全等领域投资机遇,并列出多领域建议关注公司 [7] 根据相关目录分别进行总结 行业基本数据 - 股票家数 336 只,占比 0.04%;总市值 42,657.40 亿元,占比 4.41%;流通市值 36,398.85 亿元,占比 4.74% [4] 相对指数表现 - 1 个月绝对表现 - 5.3%,相对表现 - 1.6%;6 个月绝对表现 2.3%,相对表现 5.4%;12 个月绝对表现 27.0%,相对表现 22.4% [5] 新模型特点 - DeepSeek - Prover - V2 - 671B 采用和 DeepSeek V3 - 0324 相同架构,参数 6710 亿,用 MoE 模式,有 61 层 Transformer 层等,支持超长上下文及多种计算精度,用 safetensors 格式优化训练部署,通过 FP8 量化技术提高推理效率 [7] - 自 2024 年 3 月以来,DeepSeek - Prover 系列已推出 3 款模型,DeepSeek - Prover - V2 进一步提出“子目标分解的强化学习”,基础模型升级到 DeepSeek - V3 [7] - 采用“递归定理证明流程”和两阶段训练策略,减轻计算负担,构建最终形式证明 [7] - DeepSeek - Prover - V2 - 671B 在神经定理证明领域创新高,7B 模型解决部分大模型未攻克问题,形式与非形式数学能力差距缩小 [7] 投资建议 - 建议关注国产算力、AI 应用与 AI 安全等领域投资机遇,涉及办公、金融、大模型等 18 个领域多家公司 [7] 受益标的梳理 - 报告列出海光信息、寒武纪 - U 等多家公司 2024A、2025E 的营收、归母净利润、PE、PS 等数据 [8][9]
刚刚!DeepSeek-Prover-V2-671B 发布,网友:DS 是假期终结者
程序员的那些事· 2025-05-01 02:04
DeepSeek-Prover-V2-671B发布 - 公司于4月30日正式推出DeepSeek-Prover-V2-671B模型,标志着AI数学推理能力进入新阶段 [2][4] - 该模型基于6710亿参数混合专家(MoE)架构,专为Lean 4证明辅助框架优化 [4] 技术架构特性 - 采用动态参数激活机制,单次推理仅调用约370亿参数,平衡性能与计算效率 [4][6] - 上下文窗口约128k tokens,支持高阶数学证明中的复杂长逻辑链处理 [6][7] - 可能延续多头潜在注意力机制(MLA),显著降低KV缓存需求并提升吞吐量 [7] 核心突破价值 - 实现形式化数学的"GPT-4级"突破,处理复杂数学证明能力显著提升 [7] - MoE架构相比稠密模型大幅降低内存需求并提高运算速度 [7] - 开放商用许可,预计在Hugging Face开源权重,支持学术与工业应用 [7] 应用场景拓展 - 形式化验证:应用于密码学安全证明、芯片设计验证等自动化流程 [7] - 数学研究加速:辅助定理形式化、新猜想探索及奥赛级难题证明 [7] - 智能教育工具:构建可验证步骤的交互式数学教学系统 [7] - 关键系统安全:通过Lean集成验证核心代码逻辑的正确性 [7] 基础训练数据 - 基础预训练可能超过14.8万亿tokens(基于V3基础),提供广泛知识储备 [6]