Model Generalization
搜索文档
DeepSeek,上新
中国证券报· 2025-12-01 14:48
模型发布与定位 - 公司于12月1日发布两个正式版模型:DeepSeek-V3.2和DeepSeek-V3.2-Speciale [1] - DeepSeek-V3.2定位为平衡推理能力与输出长度,适合日常问答和通用Agent任务 [1] - DeepSeek-V3.2-Speciale是V3.2的长思考增强版,结合了DeepSeek-Math-V2的定理证明能力,旨在将开源模型的推理能力推向极致 [1] 模型性能表现 - 在公开推理类Benchmark测试中,DeepSeek-V3.2达到了GPT-5的水平,仅略低于Gemini-3.0-Pro [1] - 相比Kimi-K2-Thinking,V3.2的输出长度大幅降低,显著减少了计算开销与用户等待时间 [1] - DeepSeek-V3.2-Speciale在主流推理基准测试上的性能表现媲美Gemini-3.0-Pro [2] - V3.2-Speciale在IMO 2025、CMO 2025、ICPC World Finals 2025及IOI 2025中取得金牌水平成绩,其中ICPC与IOI成绩分别达到人类选手第二名与第十名水平 [2] 基准测试数据对比 - 在AIME 2025测试中,V3.2得分为93.1(16k),V3.2-Speciale得分为96.0(23k),优于GPT-5的94.6(13k)和Gemini-3.0-Pro的95.0(15k) [3] - 在HMMT Feb 2025测试中,V3.2-Speciale以99.2(27k)的得分显著领先于GPT-5的88.3(16k)和Gemini-3.0-Pro的97.5(16k) [3] - 在CodeForces测试中,V3.2-Speciale得分为2701(77k),接近Gemini-3.0-Pro的2708(22k),远超V3.2的2386(42k) [3] - 在高度复杂任务上,Speciale模型大幅优于标准版本,但消耗的Tokens也显著更多,成本更高 [3] 技术特性与创新 - DeepSeek-V3.2是公司推出的首个将思考融入工具使用的模型,同时支持思考模式与非思考模式的工具调用 [4] - 公司通过提出一种大规模Agent训练数据合成方法,构造大量难解答、易验证的强化学习任务,提高模型的泛化能力 [4] - V3.2思考模式增加了对Claude Code的支持,但未充分适配Cline、RooCode等使用非标准工具调用的组件 [4] - DeepSeek-V3.2模型在智能体评测中达到了当前开源模型的最高水平,大幅缩小了开源模型与闭源模型的差距 [4] 应用与限制 - 目前DeepSeek-V3.2-Speciale仅供研究使用,不支持工具调用,暂未针对日常对话与写作任务进行专项优化 [3] - 公司表示,V3.2并没有针对测试集的工具进行特殊训练,据此认为V3.2在真实应用场景中能够展现出较强的泛化性 [4]