稀疏注意力机制（DSA） - 财报，业绩电话会，研报，新闻

稀疏注意力机制（DSA）

搜索文档

第一财经· 2025-12-01 23:13

模型发布概览 - 公司于12月1日晚发布两款新模型DeepSeek-V3.2和DeepSeek-V3.2-Speciale，推理能力全球领先 [1] 模型定位与性能对比 - DeepSeek-V3.2定位为平衡推理能力与输出长度，适合日常问答和通用智能体任务，在公开推理测试中达到GPT-5水平，略低于谷歌Gemini3 Pro [4] - DeepSeek-V3.2-Speciale是长思考增强版，结合数学定理证明能力，目标是将开源模型推理能力推向极致，在多个推理基准测试中超越谷歌Gemini3 Pro [4] - Speciale模型在美国数学邀请赛得分95.0(15k)，哈佛MIT数学竞赛(HMMT Feb 2025)得分97.5(16k)，国际数学奥林匹克竞赛(IMOAnswerBench)得分83.3(18k) [5] - 在编程能力上，Speciale在LiveCodeBench得分90.7(13k)，CodeForces得分2708(22k)，但在理工科博士生测试(GPQA Diamond)中得分82.4，略逊于谷歌模型 [5] - Speciale模型斩获IMO、ICPC World Finals及IOI金牌，ICPC成绩达人类选手第二名水平，IOI成绩达人类选手第十名水平 [5] 技术架构创新 - 公司提出稀疏注意力机制(DSA)以解决标准注意力机制对长序列处理效率的制约，大幅降低计算复杂度 [7] - 经过两个月实验确认稀疏注意力机制有效性，在不牺牲长上下文性能前提下解决关键计算复杂性问题 [7] - 两款新模型均引入稀疏注意力机制，使V3.2成为具有成本效益的智能体场景替代方案 [7] 产品部署现状 - 公司官方网页端、App和API均已更新为正式版DeepSeek-V3.2 [8] - 增强的Speciale版本目前仅以临时API服务形式开放，供社区评测与研究 [8] 行业竞争格局 - 公司承认其模型在世界知识广度、令牌效率及复杂任务解决能力方面仍落后于领先的专有模型如Gemini3 Pro [6] - 尽管开源圈持续进步，但过去几个月中闭源专有模型如谷歌、OpenAI、Anthropic的性能增长速度显著更快 [6] - 闭源模型与开源模型之间的性能差距日益扩大，专有系统在复杂任务中展现出越来越强的优势 [6] - 行业中存在三个关键缺陷：标准注意力机制制约长序列处理效率、后训练阶段计算投入不足、AI智能体泛化能力存在差距 [7]

Artificial Intelligence

DeepSeek-V3.2

DeepSeek-V3.2-Speciale

开源模型

闭源模型

稀疏注意力机制（DSA）

Artificial Intelligence

DeepSeek-V3.2

DeepSeek-V3.2-Speciale

DeepSeek又上新！模型硬刚谷歌，承认开源与闭源差距拉大

第一财经· 2025-12-01 13:31

模型发布与核心定位 - 公司于12月1日晚发布两款新模型：DeepSeek-V3.2和DeepSeek-V3.2-Speciale，其推理能力全球领先 [1] - DeepSeek-V3.2定位为平衡推理能力与输出长度，适合日常问答和通用智能体任务场景，此次为9月底实验版V3.2-Exp的正式版更新 [3] - DeepSeek-V3.2-Speciale定位为将开源模型推理能力推向极致的长思考增强版，结合了DeepSeek-Math-V2的定理证明能力，具备出色的指令跟随和逻辑验证能力 [3] 模型性能表现 - 在公开推理测试中，DeepSeek-V3.2达到GPT-5水平，仅略低于谷歌Gemini3 Pro [3] - DeepSeek-V3.2-Speciale在多个推理基准测试中超越谷歌Gemini3 Pro，特别是在数学竞赛中表现优异 [4] - 具体测试成绩显示：在美国数学邀请赛（AIME 2025）中，Gemini3 Pro得分为95.0（15k），DeepSeek-V3.2得分为93.1（1k）；在哈佛MIT数学竞赛（HMMT Feb 2025）中，Gemini3 Pro得分为97.5（16k），DeepSeek-V3.2-Speciale得分为92.5（1k） [5] - Speciale模型斩获IMO、ICPC World Finals及IOI金牌，其中ICPC与IOI成绩分别达到人类选手第二名与第十名水平 [5] 技术突破与优化 - 两款模型均引入稀疏注意力机制（DSA），旨在解决标准注意力机制对长序列处理效率的制约，并确认该机制可大幅降低计算复杂度且不牺牲长上下文性能 [7] - 采用新机制后，V3.2在智能体场景中成为具有成本效益的替代方案，不仅缩小了与前沿专有模型的性能差距，成本也显著降低 [8] 行业趋势与挑战 - 当前开源与闭源模型的差距在拉大，闭源专有模型（如谷歌、OpenAI、Anthropic）的性能增长速度显著更快 [6] - 闭源模型与开源模型之间的性能差距并未缩小反而日益扩大，专有系统在复杂任务中展现出越来越强的优势 [6] - 开源模型面临三大关键缺陷：标准注意力架构制约长序列处理效率、后训练阶段计算投入不足、AI智能体泛化能力和指令遵循能力存在差距 [7] 产品部署与市场反响 - 公司官方网页端、App和API均已更新为正式版DeepSeek-V3.2，但Speciale版本目前仅以临时API服务形式开放，供社区评测与研究 [8] - 海外社媒有观点认为此次发布是了不起的成就，匹配GPT-5和Gemini3 Pro的开源模型出现，差距正式消除，证明严谨工程设计可超越单纯参数规模 [8]

Artificial Intelligence

Artificial Intelligence

DeepSeek-V3.2