DeepSeek大模型V3.2亮相!华为、寒武纪芯片同步适配开源,首次自研DSA注意力机制,API价格砍半
模型发布与核心特性 - DeepSeek-V3-2-Exp模型于9月29日在Hugging Face平台正式发布并开源[1] - 该版本引入了自研的DeepSeek Sparse Attention稀疏注意力机制,旨在优化长文本训练和推理效率[1] - 新架构能够降低计算资源消耗并提升模型推理效率,华为和寒武纪已完成适配,最大支持160K长序列上下文长度[1] 技术性能评估 - 模型训练设置与前代V3-1-Terminus严格对齐,在各大公开评测集上的表现与V3-1-Terminus基本持平[3] - 在多项基准测试中表现稳定:MMLU-Pro保持85.0分,GPQA-Diamond从80.7微降至79.9,Codeforces-Div1从2046提升至2121[4] - 在AIME 2025数学测试中从88.4提升至89.3,但在HMMT 2025中从86.1降至83.6[4] 商业化与成本优化 - 官方API价格大幅下调超过50%,新价格已即刻生效[4] - 官方App、网页端和小程序均已同步更新至DeepSeek-V3-2-Exp版本[4] - 为便于开发者对比,V3-1-Terminus版本的API访问接口将保留至2025年10月15日,调用价格与V3-2-Exp保持一致[6] 开源生态与产业合作 - 模型在Huggingface和ModelScope平台全面开源,相关论文同步公开[6] - 开源新模型研究中设计的GPU算子,包括TileLang和CUDA两种版本[6] - 寒武纪在模型发布同时宣布完成适配,并开源vLLM-MLU推理引擎源代码,表明双方技术协作早已展开[6][7]