模型发布与核心定位 - 公司于12月1日晚发布两款新模型:DeepSeek-V3.2和DeepSeek-V3.2-Speciale,其推理能力全球领先 [1] - DeepSeek-V3.2定位为平衡推理能力与输出长度,适合日常问答和通用智能体任务场景,此次为9月底实验版V3.2-Exp的正式版更新 [3] - DeepSeek-V3.2-Speciale定位为将开源模型推理能力推向极致的长思考增强版,结合了DeepSeek-Math-V2的定理证明能力,具备出色的指令跟随和逻辑验证能力 [3] 模型性能表现 - 在公开推理测试中,DeepSeek-V3.2达到GPT-5水平,仅略低于谷歌Gemini3 Pro [3] - DeepSeek-V3.2-Speciale在多个推理基准测试中超越谷歌Gemini3 Pro,特别是在数学竞赛中表现优异 [4] - 具体测试成绩显示:在美国数学邀请赛(AIME 2025)中,Gemini3 Pro得分为95.0(15k),DeepSeek-V3.2得分为93.1(1k);在哈佛MIT数学竞赛(HMMT Feb 2025)中,Gemini3 Pro得分为97.5(16k),DeepSeek-V3.2-Speciale得分为92.5(1k) [5] - Speciale模型斩获IMO、ICPC World Finals及IOI金牌,其中ICPC与IOI成绩分别达到人类选手第二名与第十名水平 [5] 技术突破与优化 - 两款模型均引入稀疏注意力机制(DSA),旨在解决标准注意力机制对长序列处理效率的制约,并确认该机制可大幅降低计算复杂度且不牺牲长上下文性能 [7] - 采用新机制后,V3.2在智能体场景中成为具有成本效益的替代方案,不仅缩小了与前沿专有模型的性能差距,成本也显著降低 [8] 行业趋势与挑战 - 当前开源与闭源模型的差距在拉大,闭源专有模型(如谷歌、OpenAI、Anthropic)的性能增长速度显著更快 [6] - 闭源模型与开源模型之间的性能差距并未缩小反而日益扩大,专有系统在复杂任务中展现出越来越强的优势 [6] - 开源模型面临三大关键缺陷:标准注意力架构制约长序列处理效率、后训练阶段计算投入不足、AI智能体泛化能力和指令遵循能力存在差距 [7] 产品部署与市场反响 - 公司官方网页端、App和API均已更新为正式版DeepSeek-V3.2,但Speciale版本目前仅以临时API服务形式开放,供社区评测与研究 [8] - 海外社媒有观点认为此次发布是了不起的成就,匹配GPT-5和Gemini3 Pro的开源模型出现,差距正式消除,证明严谨工程设计可超越单纯参数规模 [8]
DeepSeek又上新!模型硬刚谷歌,承认开源与闭源差距拉大