模型性能突破 - V3.2在工具调用能力上达到当前开源模型最高水平,大幅缩小开源模型与闭源模型的差距[1][4] - V3.2在推理测试中达到GPT-5水平,仅略低于Gemini-3.0-Pro[3] - V3.2-Speciale在IMO 2025等四项国际顶级竞赛中斩获金牌[3] 核心技术创新 - 采用DeepSeek Sparse Attention稀疏注意力机制,将注意力复杂度从O(L²)降低至O(Lk)[8][9] - 实现"思考+工具调用"融合机制,首个在思考模式下支持工具调用的模型[7][11] - 思考模式采用先分析、再规划、再调用工具、再验证、再修正的闭环流程[11][12] 训练策略升级 - 通过大规模Agent训练数据合成方法,构造1800多个环境、85000多条复杂指令的强化学习任务[1][4][13] - 后训练计算预算超过预训练成本的10%,资源投入为高级能力释放奠定基础[18] - 采用可扩展的强化学习框架,在GRPO算法基础上引入多项稳定性改进[19] 评测表现数据 - 推理能力:AIME 2025测试通过率93.1%,接近GPT-5的94.6%和Gemini-3.0-Pro的95.0%[20] - 代码智能体:SWE-Verified解决率73.1%,Terminal Bench 2.0准确率46.4%[20] - 搜索智能体:BrowseComp通过率从51.4%提升至67.6%[20] - 工具使用:τ2-Bench通过率80.3%,MCP-Universe成功率45.9%[20] 行业影响 - 证明通过正确架构+数据策略+工具融合设计,开源模型完全有能力成为世界级选手[4] - 大模型赛道从"参数竞赛"走向"能力竞赛",开源模型在关键能力维度逼近顶级闭源模型[3] - 为开发者提供成本更低、可定制性更强的高性能模型选择[23]
开源最强!“拳打GPT 5”,“脚踢Gemini-3.0”,DeepSeek V3.2为何提升这么多?
美股IPO·2025-12-01 22:29