Workflow
闭源专有模型
icon
搜索文档
开源和闭源模型的差距在拉大:这是DeepSeek论文揭示的残酷真相
36氪· 2025-12-06 00:03
行业核心观点 - 开源大模型与闭源模型的性能差距正在扩大,而非缩小,尤其是在复杂任务上闭源系统展现出越来越强的优势 [1][2] 性能差距现状 - 在MMLU-Pro测试中,DeepSeek V3.2得分85.0,低于GPT-5的87.5和Gemini 3.0 Pro的90.1 [2] - 在GPQA Diamond测试中,DeepSeek V3.2得分82.4,低于GPT-5的85.7和Gemini 3.0 Pro的91.9 [2] - 在HLE测试中,差距尤为明显:DeepSeek V3.2得分25.1,GPT-5得分26.3,而Gemini 3.0 Pro高达37.7 [3] - 尽管DeepSeek V3.2是当前最强的开源模型,但在需要深度推理和复杂任务处理的场景中,与顶级闭源模型仍存在明显差距 [4] 开源模型的结构性困境 - **架构限制**:开源模型普遍依赖传统的vanilla attention机制,该机制在处理长序列时效率极低,严重限制了可扩展部署和有效的后训练 [5][6] - **资源投入鸿沟**:后训练是关键环节,但大部分开源模型的后训练预算可能连预训练成本的1%都不到,而DeepSeek V3.2的后训练计算预算超过了预训练成本的10% [7] - **AI Agent能力滞后**:在真实应用场景中,开源模型的泛化能力和指令理解能力明显落后,阻碍了实际部署的有效性 [8] - 具体表现为:在MCP-Mark中,DeepSeek V3.2得分45.9,低于Gemini 3.0 Pro的51.0;在MCP-Universe中,前者为80.3,后者为87.9;在Tool-Decathlon中差距更明显 [8] DeepSeek的技术创新与应对策略 - **架构革新**:引入DSA机制,通过“闪电索引器”选择top-k个最重要的token参与计算,将计算复杂度从O(L²)降至O(L×k),其中k=2048 [10] - 在128K上下文长度下,DSA大幅降低了推理成本且性能几乎无损,在AA-LCR和Fiction.liveBench等测试中表现甚至优于使用传统注意力的前代模型 [10] - **超常规资源投入**:持续强化学习训练预算已超过预训练成本的10%,为数学、编程、推理、Agent等六大领域分别训练专家模型 [12] - 在持续预训练阶段,模型经历了943.7B tokens的训练,并采用GRPO算法进行混合训练,整合推理、Agent和人类对齐任务 [12] - **系统化强化Agent能力**:开发了系统化的任务合成流程,合成了超过1800个多样化环境和85,000条复杂提示,涵盖24,667个代码Agent任务、50,275个搜索Agent任务、4,417个通用Agent任务和5,908个代码解释器任务 [13] - 效果显著:在MCP-Universe上达到80.3%的成功率,虽低于Gemini 3.0 Pro的87.9%,但已是开源模型最佳表现,显著缩小了与闭源模型的差距 [13] 行业启示与路径 - 开源AI的生存之道在于技术路线创新,而非硬碰硬拼资源 [14] - DeepSeek V3.2证明了通过更高效的架构和更科学的后训练,可以用更少的资源实现接近闭源模型的效果 [13][14] - 如果Gemini 3.0证明了持续扩展预训练的潜力,DeepSeek V3.2则证明了在大规模上下文环境中强化学习的可扩展性 [13]