模型发布概览 - 在ChatGPT发布三周年之际,DeepSeek同时发布了两款新模型:DeepSeek-V3.2和DeepSeek-V3.2-Speciale [1] - DeepSeek-V3.2聚焦平衡实用,适用于日常问答、通用Agent任务和真实应用场景下的工具调用 [1] - DeepSeek-V3.2-Speciale主打极致推理,推理基准性能媲美Gemini-3.0-Pro [3] 模型核心能力与定位 - DeepSeek-V3.2的推理能力达GPT-5水平,略低于Gemini-3.0-Pro [2] - DeepSeek-V3.2-Speciale在高度复杂数学推理、编程竞赛、学术研究类任务上能力出众 [13] - DeepSeek-V3.2-Speciale在指令跟随、数学证明、逻辑验证方面能力出众,但未针对日常对话与写作做专项优化,且仅供研究使用,不支持工具调用 [13][14][15] - 在高度复杂任务上,Speciale模型大幅优于标准版本,但消耗的Tokens也显著更多,成本更高 [16] 关键性能指标与竞赛表现 - DeepSeek-V3.2-Speciale斩获IMO 2025、CMO 2025、ICPC World Finals 2025、IOI 2025金牌 [4] - 在ICPC竞赛中达到人类选手第二、IOI竞赛中达到人类选手第十名水平 [5] - 在AIME 2025(美国数学邀请赛)中,DeepSeek-V3.2-Speciale得分为96.0,高于GPT-5 High的94.6和Gemini-3.0 Pro的95.0 [17] - 在HMMT Feb 2025(哈佛MIT数学竞赛)中,DeepSeek-V3.2-Speciale得分为99.2,显著高于GPT-5 High的88.3和Gemini-3.0 Pro的97.5 [17] - 在CodeForces(世界级编程竞赛)中,DeepSeek-V3.2-Speciale评分为2701,接近Gemini-3.0 Pro的2708,并高于GPT-5 High的2537 [17] 架构创新:DSA稀疏注意力机制 - DeepSeek-V3.2最大的架构创新是引入了DSA(DeepSeek Sparse Attention)机制 [21] - 传统注意力机制在处理长序列时计算复杂度是O(L²),而DSA将计算复杂度降低到O(L·k),其中k远小于L [22][23] - DSA包含两个组件:闪电索引器(lightning indexer)和细粒度token选择(fine-grained token selection)机制 [27] - 闪电索引器负责快速计算查询token和历史token之间的相关性分数,然后只选择top-k个最相关的token进行注意力计算 [28] - 团队采用了两阶段训练策略:第一阶段是Dense Warm-up,保持密集注意力,只训练lightning indexer,用了1000步,处理了21亿个tokens;第二阶段引入稀疏机制,每个查询token选择2048个键值对,训练了15000步,总共处理了9437亿个tokens [30][31][32][33] - 在128k长度的序列上,当序列长度达到128K时,预填充阶段每百万token的成本从0.7美元降到了0.2美元左右,解码阶段从2.4美元降到了0.8美元,推理成本比V3.1-Terminus降低了好几倍 [35] 强化学习与后训练 - 强化学习训练的计算预算已经超过了预训练成本的10%,这在开源模型中相当罕见 [37][38] - 团队开发了稳定、可扩展的RL协议,使训练后阶段的计算预算超过了预训练成本的10% [40] - 团队在GRPO算法基础上做了多项改进,包括无偏KL估计、离线序列掩码策略,并特别针对MoE模型设计了Keep Routing操作 [41][42][44][46] - 在具体训练上,团队采用了专家蒸馏的策略,先为数学、编程、通用逻辑推理、通用Agent任务、Agent编程和Agent搜索这6个领域训练专门的模型,然后用这些专家模型生成特定领域的数据来训练最终模型 [47][48] Agent能力突破 - DeepSeek-V3.2模型在Agent评测中达到了当前开源模型的最高水平 [8] - 团队找到了让模型同时具备推理和工具使用能力的方法 [50] - 团队设计了新的思考上下文管理机制:只有在引入新的用户消息时才丢弃历史推理内容,如果只是添加工具相关消息,推理内容会被保留 [54] - 团队开发了一个自动环境合成pipeline,生成了1827个任务导向的环境和85000个复杂提示 [58] - 在代码Agent方面,团队从GitHub挖掘了数百万个issue-PR对,成功搭建了数万个可执行的软件问题解决环境 [63] - 评测结果显示,DeepSeek-V3.2在SWE-Verified上达到73.1%的解决率,在Terminal Bench 2.0上准确率46.4%,都大幅超越了现有开源模型 [64] - 在MCP-Universe和Tool-Decathlon等工具使用基准测试上,DeepSeek-V3.2也展现出了接近闭源模型的性能 [65] 综合基准测试表现 - 在工具使用基准T2-Bench上,DeepSeek-V3.2得分为80.3,低于Claude-4.5-Sonnet的84.7和Gemini-3.0 Pro的85.4,但高于GPT-5 High的80.2 [12] - 在MCP-Universe基准上,DeepSeek-V3.2成功率为45.9%,低于Gemini-3.0 Pro的50.7%,但高于Claude-4.5-Sonnet的46.5%和GPT-5 High的47.9% [12] - 在Tool-Decathlon基准上,DeepSeek-V3.2得分为35.2,高于GPT-5 High的29.0和Gemini-3.0 Pro的36.4 [12] - 在MMLU-Pro(EM)基准上,DeepSeek-V3.2得分为85.0,低于Gemini-3.0 Pro的90.1,但高于Claude-4.5-Sonnet的88.2和GPT-5 High的87.5 [66] - 在GPQA Diamond(理工科博士生测试)基准上,DeepSeek-V3.2得分为82.4,低于Gemini-3.0 Pro的91.9和GPT-5 High的85.7 [66] - 在LiveCodeBench(世界级编程竞赛)基准上,DeepSeek-V3.2得分为83.3,低于Gemini-3.0 Pro的90.7和GPT-5 High的84.5 [66] 模型局限性 - 由于总训练FLOPs较少,DeepSeek-V3.2的世界知识广度仍落后于领先的闭源模型 [68] - Token效率是个挑战,通常情况下,本次上新的两个模型需要生成更长的轨迹,才能达到Gemini-3.0-Pro的输出质量 [69]
DeepSeek-V3.2系列开源,性能直接对标Gemini-3.0-Pro
量子位·2025-12-01 12:13