Model Generalization - 财报，业绩电话会，研报，新闻

Model Generalization

搜索文档

中国证券报· 2025-12-01 14:48

模型发布与定位 - 公司于12月1日发布两个正式版模型：DeepSeek-V3.2和DeepSeek-V3.2-Speciale [1] - DeepSeek-V3.2定位为平衡推理能力与输出长度，适合日常问答和通用Agent任务 [1] - DeepSeek-V3.2-Speciale是V3.2的长思考增强版，结合了DeepSeek-Math-V2的定理证明能力，旨在将开源模型的推理能力推向极致 [1] 模型性能表现 - 在公开推理类Benchmark测试中，DeepSeek-V3.2达到了GPT-5的水平，仅略低于Gemini-3.0-Pro [1] - 相比Kimi-K2-Thinking，V3.2的输出长度大幅降低，显著减少了计算开销与用户等待时间 [1] - DeepSeek-V3.2-Speciale在主流推理基准测试上的性能表现媲美Gemini-3.0-Pro [2] - V3.2-Speciale在IMO 2025、CMO 2025、ICPC World Finals 2025及IOI 2025中取得金牌水平成绩，其中ICPC与IOI成绩分别达到人类选手第二名与第十名水平 [2] 基准测试数据对比 - 在AIME 2025测试中，V3.2得分为93.1(16k)，V3.2-Speciale得分为96.0(23k)，优于GPT-5的94.6(13k)和Gemini-3.0-Pro的95.0(15k) [3] - 在HMMT Feb 2025测试中，V3.2-Speciale以99.2(27k)的得分显著领先于GPT-5的88.3(16k)和Gemini-3.0-Pro的97.5(16k) [3] - 在CodeForces测试中，V3.2-Speciale得分为2701(77k)，接近Gemini-3.0-Pro的2708(22k)，远超V3.2的2386(42k) [3] - 在高度复杂任务上，Speciale模型大幅优于标准版本，但消耗的Tokens也显著更多，成本更高 [3] 技术特性与创新 - DeepSeek-V3.2是公司推出的首个将思考融入工具使用的模型，同时支持思考模式与非思考模式的工具调用 [4] - 公司通过提出一种大规模Agent训练数据合成方法，构造大量难解答、易验证的强化学习任务，提高模型的泛化能力 [4] - V3.2思考模式增加了对Claude Code的支持，但未充分适配Cline、RooCode等使用非标准工具调用的组件 [4] - DeepSeek-V3.2模型在智能体评测中达到了当前开源模型的最高水平，大幅缩小了开源模型与闭源模型的差距 [4] 应用与限制 - 目前DeepSeek-V3.2-Speciale仅供研究使用，不支持工具调用，暂未针对日常对话与写作任务进行专项优化 [3] - 公司表示，V3.2并没有针对测试集的工具进行特殊训练，据此认为V3.2在真实应用场景中能够展现出较强的泛化性 [4]

Seek .(US:SKLTY)

Artificial Intelligence

Model Generalization

Artificial Intelligence

DeepSeek-V3.2

DeepSeek-V3.2-Speciale

GPT-5

Artificial Intelligence

Model Generalization

Artificial Intelligence

DeepSeek-V3.2

DeepSeek-V3.2-Speciale

GPT-5