闭源越跑越快之后,DeepSeek V3.2 如何为开源模型杀出一条新路
深思SenseAI·2025-12-03 09:51

文章核心观点 - 闭源模型在综合能力上持续领先,与开源模型的差距在拉大,尤其在复杂任务上优势明显 [1] - DeepSeek V3.2系列模型通过三项关键技术改进,在效率、后训练算力投入和AI Agent能力上取得突破,实现了在有限预算下接近顶级闭源模型(如GPT-5)的性能,为开源社区提供了新的发展路径 [2][3][6][16] 闭源与开源模型的现状与挑战 - 权威评测指出,在最前沿的综合能力上,闭源模型的性能曲线更陡,开源模型在所有维度上追平变得越来越难 [1] - 闭源模型(如Anthropic、Gemini、OpenAI)在复杂任务上展现出越来越明显的优势,与开源模型的差距在拉大 [1] - 开源模型面临三个关键问题:依赖低效的Vanilla Attention机制限制了长序列场景的计算效率和部署;后训练阶段算力投入不足;在AI Agent场景中,泛化与指令跟随能力显著滞后于闭源系统 [2] DeepSeek V3.2的技术改进与架构创新 - 引入DeepSeek Sparse Attention稀疏注意力机制,旨在显著降低长上下文场景下的计算复杂度,这是相比前代V3.1-Terminus唯一的架构层修改 [2][6] - DSA采用两阶段稀疏化筛选机制:通过“闪电索引”轻量级模块计算索引分数,再根据分数仅对得分最高的Top-k个键值条目进行细粒度计算,将核心注意力复杂度从O(L^2)降低到O(L*k) [7][11] - DSA在多头潜在注意力框架下实例化,采用多查询注意力模式以最大化计算效率 [10] - 2025年9月评估显示,DSA在常规任务上相比密集注意力基线没有性能下降,在AA-LCR长文本推理基准测试中得分比上一代模型高出4分 [11] 后训练策略与算力投入 - 将后训练阶段的算力预算提升至超过预训练成本的10%,通过扩大后训练计算规模来释放更高阶的模型能力 [3][12] - 摒弃传统分阶段微调,采用单阶段混合强化学习方案,将推理、智能体和人类对齐任务合并进行,以解决灾难性遗忘问题 [12][14] - 通过专家蒸馏闭环(先训练专家模型并蒸馏,再通过混合RL优化)和算法底层优化(如推导无偏KL估计器、引入离策略序列掩码)来保证训练稳定性和性能上限 [14] - 构建了DeepSeek V3.2 Speciale版本,在RL阶段移除长度惩罚,允许超长思维链推理,使其在IMO 2025和IOI 2025中斩获金牌,硬实力追平闭源模型Gemini 3.0 Pro [14] 数据流水线与AI Agent能力提升 - 提出新的数据流水线,用于在工具使用场景中培育具有泛化能力的推理 [3] - 推进到大规模的agentic任务合成阶段,构建了超过1,800个不同环境以及85,000个复杂提示,这些大规模合成数据显著提升了模型在agent场景下的泛化能力和指令跟随能力 [3] 对行业与开源生态的意义 - Scaling law的边际收益正在变小,复制从GPT-3.5到GPT-4量级的提升已很难仅靠堆叠数据和算力实现,需要新的科学思路、训练机制和架构范式来打开增长曲线 [16] - 大模型发展被拉回到一个更偏“学术研究驱动”的时代,模型本身不是护城河,能力和落地才是 [16] - DeepSeek为开源社区做出了榜样,展示了如何在有限预算下通过重做架构、训练和重塑Agent体系,走出一条不依赖闭源的道路 [16]