Workflow
稀疏注意力机制(DSA)
icon
搜索文档
DeepSeek又上新!模型硬刚谷歌 承认开源与闭源差距拉大
第一财经· 2025-12-01 23:13
模型发布概览 - 公司于12月1日晚发布两款新模型DeepSeek-V3.2和DeepSeek-V3.2-Speciale,推理能力全球领先 [1] 模型定位与性能对比 - DeepSeek-V3.2定位为平衡推理能力与输出长度,适合日常问答和通用智能体任务,在公开推理测试中达到GPT-5水平,略低于谷歌Gemini3 Pro [4] - DeepSeek-V3.2-Speciale是长思考增强版,结合数学定理证明能力,目标是将开源模型推理能力推向极致,在多个推理基准测试中超越谷歌Gemini3 Pro [4] - Speciale模型在美国数学邀请赛得分95.0(15k),哈佛MIT数学竞赛(HMMT Feb 2025)得分97.5(16k),国际数学奥林匹克竞赛(IMOAnswerBench)得分83.3(18k) [5] - 在编程能力上,Speciale在LiveCodeBench得分90.7(13k),CodeForces得分2708(22k),但在理工科博士生测试(GPQA Diamond)中得分82.4,略逊于谷歌模型 [5] - Speciale模型斩获IMO、ICPC World Finals及IOI金牌,ICPC成绩达人类选手第二名水平,IOI成绩达人类选手第十名水平 [5] 技术架构创新 - 公司提出稀疏注意力机制(DSA)以解决标准注意力机制对长序列处理效率的制约,大幅降低计算复杂度 [7] - 经过两个月实验确认稀疏注意力机制有效性,在不牺牲长上下文性能前提下解决关键计算复杂性问题 [7] - 两款新模型均引入稀疏注意力机制,使V3.2成为具有成本效益的智能体场景替代方案 [7] 产品部署现状 - 公司官方网页端、App和API均已更新为正式版DeepSeek-V3.2 [8] - 增强的Speciale版本目前仅以临时API服务形式开放,供社区评测与研究 [8] 行业竞争格局 - 公司承认其模型在世界知识广度、令牌效率及复杂任务解决能力方面仍落后于领先的专有模型如Gemini3 Pro [6] - 尽管开源圈持续进步,但过去几个月中闭源专有模型如谷歌、OpenAI、Anthropic的性能增长速度显著更快 [6] - 闭源模型与开源模型之间的性能差距日益扩大,专有系统在复杂任务中展现出越来越强的优势 [6] - 行业中存在三个关键缺陷:标准注意力机制制约长序列处理效率、后训练阶段计算投入不足、AI智能体泛化能力存在差距 [7]
DeepSeek又上新!模型硬刚谷歌,承认开源与闭源差距拉大
第一财经· 2025-12-01 13:31
模型发布与核心定位 - 公司于12月1日晚发布两款新模型:DeepSeek-V3.2和DeepSeek-V3.2-Speciale,其推理能力全球领先 [1] - DeepSeek-V3.2定位为平衡推理能力与输出长度,适合日常问答和通用智能体任务场景,此次为9月底实验版V3.2-Exp的正式版更新 [3] - DeepSeek-V3.2-Speciale定位为将开源模型推理能力推向极致的长思考增强版,结合了DeepSeek-Math-V2的定理证明能力,具备出色的指令跟随和逻辑验证能力 [3] 模型性能表现 - 在公开推理测试中,DeepSeek-V3.2达到GPT-5水平,仅略低于谷歌Gemini3 Pro [3] - DeepSeek-V3.2-Speciale在多个推理基准测试中超越谷歌Gemini3 Pro,特别是在数学竞赛中表现优异 [4] - 具体测试成绩显示:在美国数学邀请赛(AIME 2025)中,Gemini3 Pro得分为95.0(15k),DeepSeek-V3.2得分为93.1(1k);在哈佛MIT数学竞赛(HMMT Feb 2025)中,Gemini3 Pro得分为97.5(16k),DeepSeek-V3.2-Speciale得分为92.5(1k) [5] - Speciale模型斩获IMO、ICPC World Finals及IOI金牌,其中ICPC与IOI成绩分别达到人类选手第二名与第十名水平 [5] 技术突破与优化 - 两款模型均引入稀疏注意力机制(DSA),旨在解决标准注意力机制对长序列处理效率的制约,并确认该机制可大幅降低计算复杂度且不牺牲长上下文性能 [7] - 采用新机制后,V3.2在智能体场景中成为具有成本效益的替代方案,不仅缩小了与前沿专有模型的性能差距,成本也显著降低 [8] 行业趋势与挑战 - 当前开源与闭源模型的差距在拉大,闭源专有模型(如谷歌、OpenAI、Anthropic)的性能增长速度显著更快 [6] - 闭源模型与开源模型之间的性能差距并未缩小反而日益扩大,专有系统在复杂任务中展现出越来越强的优势 [6] - 开源模型面临三大关键缺陷:标准注意力架构制约长序列处理效率、后训练阶段计算投入不足、AI智能体泛化能力和指令遵循能力存在差距 [7] 产品部署与市场反响 - 公司官方网页端、App和API均已更新为正式版DeepSeek-V3.2,但Speciale版本目前仅以临时API服务形式开放,供社区评测与研究 [8] - 海外社媒有观点认为此次发布是了不起的成就,匹配GPT-5和Gemini3 Pro的开源模型出现,差距正式消除,证明严谨工程设计可超越单纯参数规模 [8]