模型发布与定位 - 公司于12月1日正式发布两个模型:DeepSeek-V3.2和DeepSeek-V3.2-Speciale [1] - DeepSeek-V3.2定位为平衡推理能力与输出长度,适合日常问答和通用Agent任务 [1] - DeepSeek-V3.2-Speciale是V3.2的长思考增强版,结合了DeepSeek-Math-V2的定理证明能力,旨在将开源模型的推理能力推向极致 [1] 性能表现与基准测试 - 在公开推理类Benchmark测试中,DeepSeek-V3.2达到了GPT-5的水平,仅略低于Gemini-3.0-Pro [1] - 相比Kimi-K2-Thinking,V3.2的输出长度大幅降低,显著减少了计算开销与用户等待时间 [1] - DeepSeek-V3.2-Speciale在主流推理基准测试上的性能表现媲美Gemini-3.0-Pro [2] - 在AIME 2025测试中,Speciale模型得分为96.0,消耗约23k Tokens,表现优于GPT-5的94.6分和Gemini-3.0-Pro的95.0分 [3] - 在HMMT Feb 2025测试中,Speciale模型得分为99.2,消耗约27k Tokens,显著高于GPT-5的88.3分和Gemini-3.0-Pro的97.5分 [3] - 在IMOAnswerBench测试中,Speciale模型得分为84.5,消耗约45k Tokens,高于GPT-5的76.0分和Gemini-3.0-Pro的83.3分 [3] - 在CodeForces测试中,Speciale模型得分为2701,消耗约77k Tokens,接近Gemini-3.0-Pro的2708分,并大幅高于V3.2标准版的2386分 [3] - 在高度复杂任务上,Speciale模型大幅优于标准版本,但消耗的Tokens也显著更多,成本更高 [3] 竞赛成绩与能力边界 - DeepSeek-V3.2-Speciale在IMO 2025、CMO 2025、ICPC World Finals 2025及IOI 2025中取得金牌水平的成绩 [2] - 其中,在ICPC与IOI的成绩分别达到人类选手第二名与第十名的水平 [2] 技术特性与使用方式 - DeepSeek-V3.2是公司推出的首个将思考融入工具使用的模型,同时支持思考模式与非思考模式的工具调用 [4] - 公司通过提出一种大规模Agent训练数据合成方法,构造大量难解答、易验证的强化学习任务,以提高模型的泛化能力 [4] - V3.2思考模式增加了对Claude Code的支持,但未充分适配Cline、RooCode等使用非标准工具调用的组件,建议用户在使用此类组件时继续使用非思考模式 [4] - 目前DeepSeek-V3.2-Speciale仅供研究使用,不支持工具调用,暂未针对日常对话与写作任务进行专项优化 [3] 行业地位与影响 - DeepSeek-V3.2模型在智能体评测中达到了当前开源模型的最高水平,大幅缩小了开源模型与闭源模型的差距 [4] - 公司表示,V3.2并没有针对这些测试集的工具进行特殊训练,据此认为V3.2在真实应用场景中能够展现出较强的泛化性 [4]
DeepSeek 上新