Seek .-DeepSeek发布最强开源新品，瞄向全能Agent，给GPT-5与Gemini 3下战书

产品发布与定位 - DeepSeek于12月1日发布DeepSeek-V3.2和DeepSeek-V3.2-Speciale两个正式版模型，其推理能力达到全球领先水平 [2] - V3.2定位为“常规军”，重在平衡推理能力与输出长度，适合日常使用，已在网页端、App、API全部更新 [2] - V3.2 Speciale定位为“长思考特种部队”，旨在将开源模型的推理能力推向极致，探索模型能力边界，但不支持工具调用和日常对话，仅供研究使用 [8][9] 性能表现与基准测试 - 在Benchmark推理测试中，V3.2与GPT-5、Claude 4.5在不同领域各有高低，只有Gemini 3 Pro对比前三者有较明显优势 [2] - 在智能体评测中，V3.2得分高于同为开源的Kimi-K2-Thinking和MiniMax M2，被称为目前的“最强开源大模型” [3] - V3.2在一些问答场景和通用Agent任务中表现突出，例如在一个旅游攻略场景中，通过深度思考和工具调用给出了详尽精确的建议 [5] - V3.2 Speciale在主流推理基准测试中取得了媲美Gemini 3.0 Pro的成绩 [9] - 具体基准测试数据：在ToolUse T2-Bench测试中，V3.2得分为80.3，高于GPT-5 High的80.2，低于Claude-4.5-Sonnet的84.7和Gemini-3.0-Pro的85.4 [4] 技术特点与创新 - V3.2引入了DSA（DeepSeek稀疏注意力机制），能在长上下文场景中显著降低计算复杂度，同时保持模型性能 [8] - 公司开发了新的合成流程，能系统性地大规模生成训练数据，促进了可扩展的智能体训练后优化，提升了复杂交互环境中的泛化能力和指令跟随能力 [8] - V3.2是DeepSeek推出的首个将思考融入工具使用的模型，其更新的API首次支持在思考模式下使用工具调用能力，提升了答案的丰富度和适用性 [5][8] - V3.2 Speciale结合了上周发布的数学大模型DeepSeek-Math-V2的定理证明能力，该模型在IMO-Proof Bench基准测试评估中得到了比Gemini 3更好的成绩 [8][9] - 公司强调V3.2“并没有针对这些测试集的工具进行特殊训练”，旨在证明模型在真实应用场景中具有较强的泛化性，而非仅擅长测试的“做题家” [6] 市场竞争与行业动态 - 对比国产大模型厂商月之暗面新近发布的Kimi-K2-Thinking，V3.2的输出长度大幅降低，显著减少了计算开销与用户等待时间 [3] - 2025年后半程，GPT-5、Gemini 3、ClaudeOpus 4.5相继发布，测试成绩一次好过一次，加上快速追赶的DeepSeek，使得“最牛大模型”的赛道变得拥挤 [10] - 头部大模型在训练上已有较明显的区别，表现上也各有特色，预示着2026年的大模型竞赛会更加精彩 [10]