DeepSeek V3.2 正式版发布,V4 还没来,但已经是开源模型里 Agent 能力最强了
Founder Park·2025-12-01 13:14

DeepSeek-V3.2系列模型发布 - 公司于2025年12月1日发布了DeepSeek-V3.2和DeepSeek-V3.2-Speciale两个正式版模型,核心聚焦于推理与Agent能力的提升 [2] - 此次发布是V3系列持续一年的迭代,而非推出V4大版本,公司2025年采取了小版本迭代和功能累加的路线 [1][4][6] - 正式版模型已在网页端、App和API上线,Speciale版本以临时API形式开放 [3] 模型架构与技术特点 - DeepSeek-V3.2引入了DeepSeek Sparse Attention技术,大幅提升了长文本处理效率 [1] - 模型架构为MoE,并进行了强化与DSA等改进,目标是平衡推理能力与输出长度,适合日常问答和通用Agent任务 [9][10] - 本次更新的核心突破是将思考过程融入工具调用,模型能够同时支持思考模式和非思考模式的工具调用 [3][15] - 公司提出了一种大规模Agent训练数据合成方法,构建了大量“难解答,易验证”的任务,以提升模型泛化能力 [16] 模型性能表现:推理能力 - 在公开的推理类Benchmark测试中,DeepSeek-V3.2达到了GPT-5的水平,仅略低于Gemini-3.0-Pro [10] - DeepSeek-V3.2-Speciale作为开源模型,在IMO 2025、CMO 2025等主流推理基准测试上的性能表现媲美Gemini-3.0-Pro [3][11] - 相比Kimi-K2-Thinking,V3.2的输出长度大幅降低,显著减少了计算开销与用户等待时间 [10] - 基于V3.2-Exp-Base开发的数学模型DeepSeek-Math-V2实现了IMO金牌级的水平 [3] - Speciale版本在多项顶级学术竞赛中达到金牌水平,包括IMO 2025、ICPC 2025等,其中ICPC和IOI的成绩分别达到了人类选手第二名和第十名的水平 [11] 模型性能表现:工具调用与Agent能力 - 在各类智能体工具调用评测集上,DeepSeek-V3.2达到了目前开源模型的最高水平,大幅缩小了与闭源模型之间的差距 [3][18] - 模型未针对测试集进行特殊训练,在真实场景中显示出了较强的泛化能力 [3][18] - API支持DeepSeek-V3.2思考模式下的工具调用能力 [3] 不同版本模型定位与对比 - DeepSeek-V3.2目标为平衡推理与输出长度,适合日常使用 [10] - DeepSeek-V3.2-Speciale是V3.2的长思考增强版,并结合了DeepSeek-Math-V2的定理证明能力,目标是将开源模型的推理能力推向极致 [11] - Speciale版本针对高度复杂任务优化,消耗的Token更多、成本更高,目前仅供研究使用,不支持工具调用,未针对日常对话优化 [12] - 公司此前发布的V3.1版本统一了R1和V3,成为一个混合推理模型,这与当下闭源模型(Gemini、Claude和GPT-5)的大势所趋一致 [6] 行业影响与未来展望 - 公司自2025年1月20日发布DeepSeek R1后,正式引爆了国内开源模型的热潮,Kimi、MiniMax等也相继开源并取得了不错的成绩 [4] - 行业对DeepSeek下一个大版本(如V4或R2)抱有期待,潜在方向可能包括多模态、更长的上下文或更厉害的Agent能力 [8]