Seek .-从开源最强到挑战全球最强：DeepSeek新模型给出了解法

模型发布核心信息 - 12月1日，公司发布两个正式版模型：面向日常使用的DeepSeek-V3.2和面向极致探索的DeepSeek-V3.2-Speciale [1] - DeepSeek-V3.2是9月底实验版V3.2-Exp的正式版，平衡推理能力与输出长度，适合问答场景并强化了Agent能力，官方网页端、App和API均已更新 [1][4] - Speciale版本是V3.2的长思考增强版，结合了DeepSeek-Math-V2的定理证明能力，目标是将开源模型推理能力推向极致，目前仅以临时API服务形式开放 [1] 模型性能表现 - 在公开推理测试中，V3.2已达到GPT-5水平，仅略低于Google Gemini 3 Pro，相比Kimi-K2-Thinking输出长度大幅降低，减少计算开销与用户等待时间 [6] - Speciale在多个推理基准测试中超越Gemini 3 Pro，包括美国数学邀请赛（96.0分）、哈佛MIT数学竞赛（99.2分）和IMO（84.5分） [7] - 在编程与理工科博士生测试中，Speciale仍略逊于Google顶级模型，如LiveCodeBench（88.7分）和GPQA Diamond（85.7分）低于Gemini 3 Pro的90.7分和91.9分 [7] 技术架构创新 - 公司设计了DSA（DeepSeek稀疏注意力）机制应对长文本计算量爆炸，该机制像图书管理员通过“闪电索引器”只检索关键信息，大幅降低计算复杂度 [8] - V3.2的核心亮点是“Thinking in Tool-Use”（思考型工具调用），这是AI Agent领域的“Interleaved Thinking”（交错思维链）技术的重要背书 [8][9] - 该技术将冗长、重度依赖工具的任务转化为稳定的“计划→行动→反思”循环，通过复用假设与部分结论减少多轮任务中的“状态漂移”与重复性错误 [9] 战略方向与行业定位 - 公司将“Agent能力”提升到与“推理能力”同等重要的战略位置，试图通过Agent能力将模型从“聊天机器人”进化为真正的“数字劳动力” [13] - 从经济维度看，企业真正愿意付费的是“降本增效的行动”而非“更优美的回答”，Agent使LLM从“对话式AI”进化为“动作式AI”以产生商业闭环 [13] - 公司思路已从工具转变为基础设施提供商，大模型正演变成调度工具的通用操作系统，模型是内核，Agent是用户态程序，插件则是工具 [14] 行业竞争格局 - 过去一年开源大模型生态集体爆发，阿里云Qwen系列、月之暗面Kimi、智谱GLM和MiniMax M系列均取得超越当时顶级闭源模型的成果 [1] - Google Gemini 3.0 Pro的发布重新定义了“全球最强”，其强劲性能让开源和闭源的差距瞬间又变成了一道新的天花板 [2] - 开源模型存在三个关键缺陷：对标准注意力机制的过度依赖、后训练阶段计算投入不足、Agent领域泛化能力和指令遵循能力存在明显差距 [15] 未来发展路径 - 公司计划通过增加预训练计算量填补知识空白，并优化模型推理链的“智能密度”提高效率，让模型学会“少说话、多办事” [16] - 研究员Zhibin Gou表示，训练后的瓶颈需通过优化方法和数据解决，而非仅等待更好的基础模型，持续扩大模型规模、数据量、上下文和强化学习 [17] - 公司用实打实的模型证明Scaling没死只是换了战场，当行业讨论Scaling Law是否撞墙时，公司想证明持续扩展的可能性 [19]