DeepSeek 偷偷发布了v3.1

核心性能突破 - 上下文窗口扩展至128K tokens，较上一代64K实现翻倍提升，可处理约10万-13万汉字，相当于两本200页小说或400页书籍的文本量 [1] - 通过Transformer架构的内存管理优化，改进注意力机制计算效率与上下文状态追踪能力，解决上下文丢失与响应碎片化问题 [1] - 线上模型版本与开源版本保持一致的128K上下文能力，确保企业级用户与开发者获得同等长文本处理性能 [1] 场景验证与应用 - 在企业级应用中显著提升法律合同审查、学术论文综述等场景效率，可一次性输入400页合同或约10万字博士论文并保持逻辑连贯性与细节准确性 [2] - 在开发者场景中支持大型代码库依赖分析、技术文档解析及检索增强生成任务，解决旧版偶发的死循环输出或信息割裂问题 [2] - 处理接近上下文极限（约9%，即10万字级）输入时仍保持输出速度与准确性，支持持续数小时长对话场景，为智能客服等交互系统提供技术支撑 [2] 编程能力突破 - 在Aider Polyglot多语言编程基准测试中以71.6%得分超越Claude Opus 4，成为开源模型中表现最佳的非推理模型之一，且推理速度更快 [4] - SWE代码修复测试与Terminal-Bench终端任务表现显著提升，Python与Bash代码生成准确率达60%，较V3版本提升数个百分点 [4] - 支持复杂工程化开发，包括使用p5.js编写含重力与碰撞检测的交互程序、Three.js构建三层粒子星系系统，以及全栈开发中一次性生成800行无错误代码 [5][6] 成本优势与市场影响 - 完成典型编程任务平均成本仅1.01美元，为闭源模型的1/68，对中小企业开发流程具有颠覆性意义 [7] - "开源模型+高性能+低成本"组合打破编程工具市场现有格局，推动开发模式向本地化、高效率、低门槛方向演进 [7] 智能体能力增强 - 通过后训练优化提升工具使用与函数调用能力，支持代码编写、命令行操作及网络搜索整合实时信息，实现从顾问向工程师的角色升级 [8] - 原生支持Anthropic API格式，允许开发者直接复用Claude Code框架工具调用逻辑，降低生态迁移成本 [9] - Strict Mode函数调用在金融数据接口场景中格式准确率达99%，杜绝参数类型错误或字段缺失导致的调用失败 [10] 开发效率优化 - 工具调用模板库减少80%的Prompt工程工作量，平均接入时间从2天缩短至1天，效率提升50% [11] - 通过搜索Token与思考Token支持内部推理步骤拆分，使智能体自主规划工具调用顺序，减少人工干预环节 [12] 编程与搜索智能体 - 企业用户报告典型编程任务成本约1美元，远低于闭源竞品近70美元水平，且在创意开发中可复现Chrome断网小恐龙游戏核心功能 [14] - 搜索智能体在browsecomp复杂搜索测试与HLE多学科专家级难题测试中大幅领先前代版本，强化多步推理与跨领域知识整合能力 [14] - 在企业DevOps流程中自动化生成部署脚本，端到端任务成本仅为使用Claude-3.5的1/30，代码调试场景成本为传统专有系统的1/60 [15] API定价与成本效率 - API输入价格调整为缓存命中时0.5元/百万tokens、未命中时4元/百万tokens（此前V3为2元/百万tokens），输出价格为12元/百万tokens（此前V3为8元/百万tokens） [16] - Token效率提升20%-50%且推理速度达60 TPS，有效抵消价格调整影响，整体性价比保持行业领先 [17]