Workflow
降价!DeepSeek,大消息!

大消息。 9月29日,DeepSeek宣布,正式发布DeepSeek-V3.2-Exp模型。作为迈向新一代架构的中间步骤,V3.2-Exp在V3.1-Terminus的基础上引入了DeepSeek Sparse Attention(一种稀疏注意力机制),针对长文本的训练和推理效率进行了探索性的优化和验证。 据了解,DeepSeek Sparse Attention(DSA)首次实现了细粒度稀疏注意力机制,在几乎不影响模型输出效果的前提下,实现了长文本训练和推理效率的大幅 提升。 为了严谨地评估引入稀疏注意力带来的影响,DeepSeek特意把DeepSeek-V3.2-Exp的训练设置与V3.1-Terminus进行了严格的对齐。在各领域的公开评测集 上,DeepSeek-V3.2-Exp的表现与V3.1-Terminus基本持平。 | | Benchmark | DeepSeek-V3.1- | DeepSeek-V3.2-Exp | | --- | --- | --- | --- | | | | Terminus | | | | MMLU-Pro | 85.0 | 85.0 | | General | GP ...