长上下文

搜索文档
DeepSeek-V3.1版本更新,双模式开放体验
凤凰网· 2025-09-23 07:29
产品升级 - 公司推出全新版本DeepSeek-V3.1-Terminus 同步上线思考模式与非思考模式双版本 均支持128K长上下文[1] - 模型统一升级为DeepSeek-V3.1-Terminus 其中deepseek-chat对应非思考模式 deepseek-reasoner对应思考模式[1] - 非思考模式默认支持4K输出 最高可达8K 思考模式默认32K输出 最大可扩展至64K[1] 技术优化 - 重点优化语言一致性 显著缓解中英文混杂及异常字符问题 输出更规范[1] - 强化Agent能力 进一步提升Code Agent与Search Agent的执行表现[1] 定价策略 - 新模型百万tokens输入费用为缓存命中0.5元 未命中4元[1] - 百万tokens输出定价12元 为开发者提供高性价比服务[1]
MiniMax重磅开源M1模型:百万上下文超DeepSeek R1,实现性能与效率双杀
AI科技大本营· 2025-06-17 02:32
大模型技术突破 - MiniMax开源其首个推理模型M1,原生支持百万级上下文长度,在推理效率、计算成本和复杂任务能力上展现出与DeepSeek R1、Qwen3-235B等模型不同的技术路径与性能表现[1][2] - M1是全球首个开放权重的大规模混合注意力推理模型,凭借混合门控专家架构(Mixture-of-Experts,MoE)与Lightning Attention的结合,在性能表现和推理效率方面实现显著突破[4] - M1具备4560亿参数规模,其中每个token激活约459亿参数,原生支持最长100万tokens的上下文输入,是DeepSeek R1所支持长度的8倍[7] 性能与效率优势 - 在生成长度为10万tokens的场景下,MiniMax-M1的计算量(FLOPs)仅为DeepSeek R1的25%,在长文本处理任务中具备显著优势[7] - 完整强化学习训练在512块H800 GPU上仅耗时三周,成本控制在53.47万美元,展现极高效率与性价比[11] - 在标准基准测试中,MiniMax-M1在复杂软件工程、工具使用与长上下文任务等方面表现突出,整体表现已达到甚至超越DeepSeek-R1与Qwen3-235B等代表性开源模型[12] 技术创新 - 采用大规模强化学习(RL)方式,在数学推理、沙盒环境下的软件工程等多样任务中进行了全面优化[9] - 提出名为CISPO的创新型强化学习算法,针对重要性采样权重而非token更新进行裁剪,有效提升学习稳定性与性能表现,在对比实验中优于现有主流RL变体[10] - 训练两个版本分别设定40K与80K的思维预算(thinking budget),其中40K版本为中间训练阶段的成果[12] 应用与部署 - MiniMax-M1是开源即上线,可直接进入官网体验[13][15] - 模型在不到30秒的时间可完成技术报告里的公式、表格翻译[17] - 模型现已支持GitHub和Hugging Face平台,并兼容vILN和Transformers框架[19]