模型性能提升 - DeepSeek-V3.1-Terminus在Humanity's Last Exam基准测试中得分从15.9提升至21.7,增幅达36.48% [10] - MMLU-Pro测试得分从84.8微升至85.0,GPQA-Diamond从80.1提升至80.7 [10] - LiveCodeBench编程基准保持稳定,从74.8略增至74.9 [10] 技术问题修复 - 修复输出中随机出现"极"字的异常字符问题,此前该缺陷影响编程及输出结构敏感型任务 [11][12][14] - 显著改善中英文混杂的语言一致性问题,该问题曾普遍存在于大型语言模型中 [4][15][18] - 针对time.Second等特定编程语句的异常输出问题已无法复现,证实修复有效性 [20][21][22] Agent能力增强 - BrowseComp基准表现从30.0大幅提升至38.5,终端测试(Terminal-bench)从31.3升至36.7 [10][35] - 代码相关Agent能力提升:SWE Verified从66.0升至68.4,多语言版本从54.5升至57.8 [10][35] - SimpleQA任务准确率从93.4提升至96.8,展现更强的信息处理能力 [10][35] 竞品对比表现 - 在Humanity's Last Exam测试中以21.7分超越Gemini 2.5 Pro的21.6分 [31][32] - LiveCodeBench编程测试中74.9分显著优于Gemini 2.5 Pro的69分 [31][32] - SimpleQA任务96.8分表现远超Gemini 2.5 Pro的约11分水平 [31][32] 产品部署与开源 - 模型已同步更新至官方App、网页端、小程序及API接口 [6] - 开源版本同步发布在Hugging Face和ModelScope平台 [7] - 此次更新距离上次8月21日发布仅隔一个月,显示快速迭代能力 [8] 行业技术演进 - 本次更新被命名为Terminus(终点),引发市场对DeepSeek-V4/R2版本即将发布的猜测 [33][34][37][38] - 公司持续聚焦Agent能力开发,此次更新被定位为迈向Agent时代的重要进展 [30][31] - 模型在多语言处理、代码生成及工具使用场景的表现提升,反映行业技术竞争焦点 [4][10][31]
刚刚,DeepSeek 重磅发布!告别“极”你太美,最大提升超 36%,V4/R2 还远吗?
程序员的那些事·2025-09-23 05:43