Long Text Training and Inference

搜索文档
国庆前放大招!DeepSeek-V3.2-Exp发布并开源,API成本将降低50%以上
华尔街见闻· 2025-09-29 11:12
国庆长假在即,Deepseek又放大招了! 9月29日,DeepSeek-V3.2-Exp模型正式在Hugging Face平台发布并开源。 该版本作为迈向下一代架构的重要中间步骤,在 V3.1-Terminus 的基础上引入了团队自研的 DeepSeek Sparse Attention (DSA) 稀疏注意力机制,旨在对 长文本的训练和推理效率 进行探索性优化与验证,这种架构能够降低计算资源消耗并提升模型推理效率。 DeepSeek 现已将 DeepSeek-V3.2-Exp 模型在 Huggingface 和 ModelScope 平台上全面开源,相关论文也已同步公开。 目前,华为云已完成对 DeepSeek-V3.2-Exp模型的适配工作,最大可支持160K长序列上下文长度。 DeepSeek Sparse Attention(DSA)首次实现了细粒度稀疏注意力机制。DeepSeek 方面表示,这项技术 在几乎不影响模型输出效果的前提下,大幅提升了 长文本场景下的训练和推理效率 。 为了确保评估的严谨性,DeepSeek-V3.2-Exp 的训练设置与前代 V3.1-Terminus 进行了严格对齐。 ...