Workflow
DeepSeek Sparse Attention(DSA)
icon
搜索文档
DeepSeek最新模型上线,全新注意力机制基于北大ACL最佳论文
36氪· 2025-09-29 23:39
DeepSeek最新模型V3.2-Exp发布,推出全新注意力机制DeepSeek Sparse Attention(DSA),训练推理提效的同时,API同步降价达50%以上! 值得注意的是,这是第一个用「DeepSeek」品牌命名的关键技术(注意力机制)! 全新注意力机制 我们注意到,DSA正是此前与北大合作、梁文锋署名的那篇ACL 2025最佳论文中,原生稀疏注意力(Native Sparse Attention,NSA)的改进。 刚刚,DeepSeek最新模型上线! 代号DeepSeek-V3.2-Exp,被DeepSeek誉为最新的实验性模型! 这次V3.2主要基于DeepSeek-V3.1-Terminus,并且首次引入「DeepSeek稀疏注意力」(DeepSeek Sparse Attention,DSA),在长上下文上实现更快、更 高效的训练与推理。 技术报告里的引用 DeepSeek-V3.2-Exp的核心武器「DeepSeek稀疏注意力」,首次实现了细粒度稀疏注意力机制,在几乎不影响模型输出效果的前提下,实现了长文本训练 和推理效率的大幅提升。 论文地址:https://github.com ...