Workflow
Sparse Attention Mechanism
icon
搜索文档
DeepSeek-V3.2-Exp来了,API价格再度大幅下调
凤凰网· 2025-09-29 14:03
摘要: 在新的价格政策下,开发者调用DeepSeek API的成本将降低50%以上。 2025年9月29日,DeepSeek-V3.2-Exp模型发布,V3.2-Exp在V3.1-Terminus 的基础上引入了DeepSeek Sparse Attention(一种稀疏注意力机制),针对长文 本的训练和推理效率进行了探索性的优化和验证。 DeepSeek Sparse Attention的核心创新在于首次实现了细粒度的稀疏注意力机制,这一机制能够在几乎不影响模型输出质量的前提下,大幅提高长文本的处 理效率。 并且,为了确保优化效果的可验证性,V3.2-Exp的训练设置与V3.1-Terminus进行了严格对比,结果显示,V3.2-Exp在各大公开评测集上的表现与V3.1- Terminus几乎持平。 | | Benchmark | DeepSeek-V3.1- | DeepSeek-V3.2-Exp | | --- | --- | --- | --- | | | | Terminus | | | General | MMLU-Pro GPQA-Diamond | 85.0 | 85.0 | | | | 80 ...
国庆前放大招!DeepSeek-V3.2-Exp发布并开源,API成本将降低50%以上
华尔街见闻· 2025-09-29 11:12
国庆长假在即,Deepseek又放大招了! 9月29日,DeepSeek-V3.2-Exp模型正式在Hugging Face平台发布并开源。 该版本作为迈向下一代架构的重要中间步骤,在 V3.1-Terminus 的基础上引入了团队自研的 DeepSeek Sparse Attention (DSA) 稀疏注意力机制,旨在对 长文本的训练和推理效率 进行探索性优化与验证,这种架构能够降低计算资源消耗并提升模型推理效率。 DeepSeek 现已将 DeepSeek-V3.2-Exp 模型在 Huggingface 和 ModelScope 平台上全面开源,相关论文也已同步公开。 目前,华为云已完成对 DeepSeek-V3.2-Exp模型的适配工作,最大可支持160K长序列上下文长度。 DeepSeek Sparse Attention(DSA)首次实现了细粒度稀疏注意力机制。DeepSeek 方面表示,这项技术 在几乎不影响模型输出效果的前提下,大幅提升了 长文本场景下的训练和推理效率 。 为了确保评估的严谨性,DeepSeek-V3.2-Exp 的训练设置与前代 V3.1-Terminus 进行了严格对齐。 ...