Sparse Attention Mechanism

搜索文档

凤凰网· 2025-09-29 14:03

摘要：在新的价格政策下，开发者调用DeepSeek API的成本将降低50%以上。 2025年9月29日，DeepSeek-V3.2-Exp模型发布，V3.2-Exp在V3.1-Terminus 的基础上引入了DeepSeek Sparse Attention（一种稀疏注意力机制），针对长文本的训练和推理效率进行了探索性的优化和验证。 DeepSeek Sparse Attention的核心创新在于首次实现了细粒度的稀疏注意力机制，这一机制能够在几乎不影响模型输出质量的前提下，大幅提高长文本的处理效率。并且，为了确保优化效果的可验证性，V3.2-Exp的训练设置与V3.1-Terminus进行了严格对比，结果显示，V3.2-Exp在各大公开评测集上的表现与V3.1- Terminus几乎持平。 | | Benchmark | DeepSeek-V3.1- | DeepSeek-V3.2-Exp | | --- | --- | --- | --- | | | | Terminus | | | General | MMLU-Pro GPQA-Diamond | 85.0 | 85.0 | | | | 80 ...

Seek .(US:SKLTY)

Artificial Intelligence

DeepSeek-V3.2-Exp

DeepSeek API

Sparse Attention Mechanism

Artificial Intelligence

DeepSeek-V3.2-Exp

DeepSeek API

国庆前放大招！DeepSeek-V3.2-Exp发布并开源，API成本将降低50%以上

华尔街见闻· 2025-09-29 11:12

国庆长假在即，Deepseek又放大招了！ 9月29日，DeepSeek-V3.2-Exp模型正式在Hugging Face平台发布并开源。该版本作为迈向下一代架构的重要中间步骤，在 V3.1-Terminus 的基础上引入了团队自研的 DeepSeek Sparse Attention (DSA) 稀疏注意力机制，旨在对长文本的训练和推理效率进行探索性优化与验证，这种架构能够降低计算资源消耗并提升模型推理效率。 DeepSeek 现已将 DeepSeek-V3.2-Exp 模型在 Huggingface 和 ModelScope 平台上全面开源，相关论文也已同步公开。目前，华为云已完成对 DeepSeek-V3.2-Exp模型的适配工作，最大可支持160K长序列上下文长度。 DeepSeek Sparse Attention（DSA）首次实现了细粒度稀疏注意力机制。DeepSeek 方面表示，这项技术在几乎不影响模型输出效果的前提下，大幅提升了长文本场景下的训练和推理效率。为了确保评估的严谨性，DeepSeek-V3.2-Exp 的训练设置与前代 V3.1-Terminus 进行了严格对齐。 ...

Sparse Attention Mechanism

Long Text Training and Inference

Artificial Intelligence

DeepSeek-V3.2-Exp

DeepSeek-V3.1-Terminus

DeepSeek Sparse Attention (DSA)

Sparse Attention Mechanism

Long Text Training and Inference

Artificial Intelligence

DeepSeek-V3.2-Exp

DeepSeek-V3.1-Terminus

DeepSeek Sparse Attention (DSA)