罕见！DeepSeek、寒武纪同步重磅发布

DeepSeek-V3.2-Exp模型发布 - 公司于9月29日正式发布实验性模型DeepSeek-V3.2-Exp 作为迈向新一代架构的中间步骤 [2] - 新模型在V3.1-Terminus基础上引入DeepSeek Sparse Attention稀疏注意力机制针对长文本训练和推理效率进行探索性优化和验证 [2] - 官方App、网页端、小程序均已同步更新为DeepSeek-V3.2-Exp模型 [2] API价格调整 - API模型版本更新为DeepSeek-V3.2-Exp 访问方式保持不变 [4] - 在新的价格政策下开发者调用DeepSeek API的成本将降低50%以上 [4] 寒武纪生态适配 - 寒武纪于同日同步实现对DeepSeek-V3.2-Exp模型的适配并开源大模型推理引擎vLLM-MLU源代码 [4] - 公司高度重视大模型软件生态建设支持以DeepSeek为代表的所有主流开源大模型 [6] - 通过长期活跃的生态建设和技术积累实现了对新模型架构的day 0适配和优化 [6] 技术协同与优化 - 寒武纪重视芯片和算法联合创新以软硬件协同方式优化大模型部署性能并降低部署成本 [6] - 针对新模型架构通过Triton算子开发实现快速适配利用BangC融合算子开发实现极致性能优化 [6] - 基于计算与通信的并行策略再次达成业界领先的计算效率水平 [6] 产业链协同意义 - 同步发布适配动作表明中国AI产业链头部公司正在进行深度协同 [7] - 可能早在模型发布之前寒武纪就在技术方面与DeepSeek进行沟通并启动相关适配研发工作 [7] - DeepSeek Sparse Attention机制叠加寒武纪的极致计算效率可大幅降低长序列场景下的训推成本 [6]