ChatGPT 三周年遭 DeepSeek 暴击,23 页技术报告藏着开源登顶的全部秘密
Seek .Seek .(US:SKLTY) 36氪·2025-12-02 00:16

核心观点 - DeepSeek发布了两款开源模型DeepSeek-V3.2和DeepSeek-V3.2-Speciale,其推理能力分别直逼GPT-5和Gemini-3.0-Pro,并解决了开源模型长期存在的“深度思考”与“工具调用”难以协同的核心瓶颈 [1][4][5] 模型发布与定位 - 发布了两款模型:主打性价比与日常使用的标准版DeepSeek-V3.2,以及面向AI能力上限探索的终极增强版DeepSeek-V3.2-Speciale [1][5] - 两款模型的权重已在HuggingFace和ModelScope上开源,可供下载和本地部署 [3] - 标准版已升级至官网、APP和API,适用于日常问答、写作和智能体任务;增强版仅提供临时API,服务至2025年12月15日截止 [5] 技术创新与架构突破 - 针对开源模型处理复杂任务的三大瓶颈(架构问题、资源分配、智能体能力)提出了三项关键技术 [4] - 引入稀疏注意力机制,通过“闪电索引器”只关注文本中真正重要的部分,大幅提升了处理长上下文(128K)的速度和效率,且性能不输甚至优于传统注意力机制 [4][7] - 在后训练阶段投入的计算预算超过了预训练成本的10%,并构建了“稳定且可扩展的强化学习训练框架”以保证训练稳定性和可扩展性 [8] - 训练流程采用“专家蒸馏”和“混合强化学习训练”两步法,在数学、编程等六大专业领域训练专家模型生成数据,并使用GRPO算法统一训练推理、智能体和人类偏好对齐任务,避免了“灾难性遗忘” [8][10] 核心能力:思考与工具调用的融合 - 新模型首次实现了“边思考边用工具”,解决了以往模型进入思考模式后无法调用工具的尴尬问题 [5][12] - 专门设计了“思考上下文管理机制”:仅在用户发出新消息时清除历史推理内容,工具调用历史和结果会保留,使得AI可以反复查询、思考、验证,无需从头开始 [13] - 通过“冷启动”设计,利用已有的带推理过程数据和无推理过程的智能体数据,通过提示词让模型在推理中自然整合工具执行 [16] 性能表现与基准测试 - 在多项基准测试中,V3.2的推理能力追平GPT-5,Speciale版本性能逼近甚至超过Gemini-3.0-Pro [11][20] - 具体测试数据:在AIME 2025测试中,V3.2得分为93.1%,Speciale为96.0%;在HMMT Feb 2025测试中,V3.2为92.5%,Speciale为99.2%;在LiveCodeBench测试中,V3.2为83.3%,Speciale为88.7% [22] - 在智能体能力测试上,V3.2在开源模型中达到最高水平,大幅缩小了与闭源模型的差距,在τ²-Bench测试的航空、零售、电信类别分别获得63.8分、81.1分和96.2分 [22] - Speciale版本在未进行专项训练的前提下,在2025年IOI排名第10,ICPC世界总决赛排名第2,并在IMO和CMO达到金牌门槛 [24][25] 训练方法革新:AI自我进化 - 公司搭建了大规模智能体任务流水线,创造了超过1800个虚拟环境和8万多条任务,特点是“难解答,但容易验证”,让AI可以无限制地自我训练 [17] - 流水线包含代码智能体(24667个任务)、搜索智能体(50275个任务)、通用智能体(4417个任务)和代码解释器(5908个任务)等角色,负责挖掘问题、生成答案和验证答案 [18] - 在代码领域,直接从GitHub抓取真实Issue和修复补丁,让智能体搭建测试环境验证修复有效性,使模型获得可实战的编程能力 [18] - 通用智能体可以自动生成任务、工具和验证逻辑,实现了“AI创造数据、验证数据、用数据变强”的自我进化过程 [19] - 实验验证了该方法的有效性:在50个合成智能体任务实例中,仅使用合成任务进行强化学习的V3.2基础模型表现显著提升 [26][27] 当前局限与未来方向 - 与顶级闭源模型(如Gemini-3.0-Pro)相比,V3.2在世界知识覆盖广度上仍显不足,部分原因是训练总浮点运算量更少 [30] - V3.2的Token使用效率低于Gemini-3.0-Pro,往往需要更长的生成路径才能达到相似输出质量,未来需优化推理链的“智能密度” [30] - 在解决复杂任务方面,V3.2仍不及最前沿模型,这促使公司计划进一步优化底层基础模型与后训练方法 [30]