DeepSeek发布最强开源新品,瞄向全能Agent,给GPT-5与Gemini 3下战书
Seek .Seek .(US:SKLTY) 钛媒体APP·2025-12-01 15:03

产品发布与定位 - DeepSeek于12月1日发布DeepSeek-V3.2和DeepSeek-V3.2-Speciale两个正式版模型,其推理能力达到全球领先水平 [2] - V3.2定位为“常规军”,重在平衡推理能力与输出长度,适合日常使用,已在网页端、App、API全部更新 [2] - V3.2 Speciale定位为“长思考特种部队”,旨在将开源模型的推理能力推向极致,探索模型能力边界,但不支持工具调用和日常对话,仅供研究使用 [8][9] 性能表现与基准测试 - 在Benchmark推理测试中,V3.2与GPT-5、Claude 4.5在不同领域各有高低,只有Gemini 3 Pro对比前三者有较明显优势 [2] - 在智能体评测中,V3.2得分高于同为开源的Kimi-K2-Thinking和MiniMax M2,被称为目前的“最强开源大模型” [3] - V3.2在一些问答场景和通用Agent任务中表现突出,例如在一个旅游攻略场景中,通过深度思考和工具调用给出了详尽精确的建议 [5] - V3.2 Speciale在主流推理基准测试中取得了媲美Gemini 3.0 Pro的成绩 [9] - 具体基准测试数据:在ToolUse T2-Bench测试中,V3.2得分为80.3,高于GPT-5 High的80.2,低于Claude-4.5-Sonnet的84.7和Gemini-3.0-Pro的85.4 [4] 技术特点与创新 - V3.2引入了DSA(DeepSeek稀疏注意力机制),能在长上下文场景中显著降低计算复杂度,同时保持模型性能 [8] - 公司开发了新的合成流程,能系统性地大规模生成训练数据,促进了可扩展的智能体训练后优化,提升了复杂交互环境中的泛化能力和指令跟随能力 [8] - V3.2是DeepSeek推出的首个将思考融入工具使用的模型,其更新的API首次支持在思考模式下使用工具调用能力,提升了答案的丰富度和适用性 [5][8] - V3.2 Speciale结合了上周发布的数学大模型DeepSeek-Math-V2的定理证明能力,该模型在IMO-Proof Bench基准测试评估中得到了比Gemini 3更好的成绩 [8][9] - 公司强调V3.2“并没有针对这些测试集的工具进行特殊训练”,旨在证明模型在真实应用场景中具有较强的泛化性,而非仅擅长测试的“做题家” [6] 市场竞争与行业动态 - 对比国产大模型厂商月之暗面新近发布的Kimi-K2-Thinking,V3.2的输出长度大幅降低,显著减少了计算开销与用户等待时间 [3] - 2025年后半程,GPT-5、Gemini 3、ClaudeOpus 4.5相继发布,测试成绩一次好过一次,加上快速追赶的DeepSeek,使得“最牛大模型”的赛道变得拥挤 [10] - 头部大模型在训练上已有较明显的区别,表现上也各有特色,预示着2026年的大模型竞赛会更加精彩 [10]