DeepSeek Sparse Attention(DSA) - 财报，业绩电话会，研报，新闻

DeepSeek Sparse Attention(DSA)

搜索文档

36氪· 2025-09-29 23:39

模型发布与技术升级 - DeepSeek发布最新实验性模型DeepSeek-V3.2-Exp，该模型基于DeepSeek-V3.1-Terminus开发 [1][3] - 模型首次引入以DeepSeek品牌命名的关键技术“DeepSeek稀疏注意力”（DSA），这是首个用DeepSeek品牌命名的关键技术 [3][5] - DSA是此前与北大合作ACL 2025最佳论文中原生稀疏注意力（NSA）的改进版本 [3] 技术创新与效率提升 - DSA实现了细粒度稀疏注意力机制，通过“闪电索引器”高效判断哪些历史Token最重要，仅对少量关键Token（如2048个）进行精细计算 [5][8] - 新技术使核心注意力计算复杂度从O(L²)大幅降低至O(Lk)，其中k为远小于L的固定值，在处理长文本时带来巨大效率提升 [8] - 训练过程包含“密集预热”初始化闪电索引器、“稀疏训练”适应新稀疏模式，以及沿用专家蒸馏和混合强化学习的后训练流程 [10] 性能表现评估 - 在严格对齐的训练设置下，DeepSeek-V3.2-Exp与V3.1-Terminus相比未出现实质性性能下降 [12][14] - 具体基准测试显示：MMLU-Pro保持85.0分，GPQA-Diamond从80.7略降至79.9，Codeforces-Div1从2046提升至2121，AIME 2025从88.4提升至89.3 [15] - 实际部署推理测试中端到端加速效果和成本节约非常显著，实现“性能不降、成本骤减”的特性 [14][18] 商业应用与定价策略 - 得益于新模型服务成本大幅降低，官方API价格同步下调50%以上 [1][19] - 新价格政策即刻生效，当前API模型版本为DeepSeek-V3.2-Exp，访问方式保持不变 [19] - 此次技术突破为大模型突破长文本瓶颈指明了充满希望的工程路径 [18]

Seek .(US:SKLTY)

稀疏注意力机制

Artificial Intelligence

DeepSeek V3.2-Exp

DeepSeek Sparse Attention(DSA)

稀疏注意力机制

Artificial Intelligence

DeepSeek V3.2-Exp

DeepSeek Sparse Attention(DSA)