Seek .(SKLTY)

搜索文档
海光DCU率先支持DeepSeek-V3.2-Exp
经济观察网· 2025-09-29 15:41
经济观察网9月29日,DeepSeek-V3.2-Exp发布并开源,引入稀疏Attention架构。海光DCU率先实现无缝 适配+深度调优,确保大模型算力"零等待"部署。 在"深算智能"战略引领下,海光信息始终致力于AI软件栈生态建设,全面支持以DeepSeek为主流的全球 主流开源大模型。得益于长期、活跃的技术积累,海光DCU得以快速对DeepSeek-V3.2-Exp完 成"Day0"级高效适配与优化。 基于GPGPU架构强大的生态优势,与编程开发软件栈DTK的特性,DeepSeek-V3.2-Exp在海光DCU上展 现出优异的性能,充分验证海光DCU高通用性、高生态兼容度及自主可控的技术优势,已成为支撑AI 大模型训练与推理的关键基础设施。 ...
DeepSeek-V3.2-Exp发布 API成本将降低50%以上
凤凰网· 2025-09-29 14:07
凤凰网科技讯 9月29日,DeepSeek-V3.2-Exp模型发布,V3.2-Exp在V3.1-Terminus 的基础上引入了 DeepSeek Sparse Attention(一种稀疏注意力机制),针对长文本的训练和推理效率进行了探索性的优化 和验证。 在各领域的公开评测集上,DeepSeek-V3.2-Exp的表现与V3.1-Terminus基本持平。 目前,官方App、网页端、小程序均已同步更新为 DeepSeek-V3.2-Exp,同时API大幅度降价。在新的价 格政策下,开发者调用DeepSeek API的成本将降低50%以上。 ...
DeepSeek-V3.2-Exp来了,API价格再度大幅下调
凤凰网· 2025-09-29 14:03
摘要: 在新的价格政策下,开发者调用DeepSeek API的成本将降低50%以上。 2025年9月29日,DeepSeek-V3.2-Exp模型发布,V3.2-Exp在V3.1-Terminus 的基础上引入了DeepSeek Sparse Attention(一种稀疏注意力机制),针对长文 本的训练和推理效率进行了探索性的优化和验证。 DeepSeek Sparse Attention的核心创新在于首次实现了细粒度的稀疏注意力机制,这一机制能够在几乎不影响模型输出质量的前提下,大幅提高长文本的处 理效率。 并且,为了确保优化效果的可验证性,V3.2-Exp的训练设置与V3.1-Terminus进行了严格对比,结果显示,V3.2-Exp在各大公开评测集上的表现与V3.1- Terminus几乎持平。 | | Benchmark | DeepSeek-V3.1- | DeepSeek-V3.2-Exp | | --- | --- | --- | --- | | | | Terminus | | | General | MMLU-Pro GPQA-Diamond | 85.0 | 85.0 | | | | 80 ...
DeepSeek发布新模型V3.2-Exp并再度降价
新京报· 2025-09-29 13:28
DeepSeek方面表示,这是一个实验性(Experimental)的版本。作为迈向新一代架构的中间步骤,V3.2- Exp在V3.1-Terminus的基础上引入了DeepSeek Sparse Attention(一种稀疏注意力机制),针对长文本的训 练和推理效率进行了探索性的优化和验证。目前,官方App、网页端、小程序均已同步更新为 DeepSeek-V3.2-Exp,同时API大幅度降价。 新京报贝壳财经讯(记者罗亦丹)9月29日,DeepSeek在官方公众号发文称,发布DeepSeek-V3.2-Exp模 型。 目前,该模型的API价格为每百万tokens输入0.2元(缓存命中),2元(缓存未命中),输出3元。相比此前, 开发者调用DeepSeek API的成本降低逾50%。 ...
DeepSeek-V3.2-Exp发布,训练推理提效,API成本降50%以上
搜狐财经· 2025-09-29 13:18
新浪科技讯 9月29日晚间消息,DeepSeek发布DeepSeek-V3.2-Exp模型。据悉,这是一个实验性 (Experimental)的版本,作为迈向新一代架构的中间步骤,V3.2-Exp在V3.1-Terminus的基础上引入了 DeepSeek Sparse Attention(一种稀疏注意力机制),针对长文本的训练和推理效率进行了探索性的优化 和验证。 目前,官方App、网页端、小程序均已同步更新为DeepSeek-V3.2-Exp,同时API大幅度降价。在新的价 格政策下,开发者调用DeepSeek API的成本将降低50%以上。DeepSeek-V3.2-Exp 模型现已在 Huggingface 与魔搭开源。 【免责声明】本文仅代表作者本人观点,与和讯网无关。和讯网站对文中陈述、观点判断保持中立,不 对所包含内容的准确性、可靠性或完整性提供任何明示或暗示的保证。请读者仅作参考,并请自行承担 全部责任。邮箱:news_center@staff.hexun.com 在各领域的公开评测集上,DeepSeek-V3.2-Exp 的表现与 V3.1-Terminus 基本持平。(文猛) ...
深度求索正式发布DeepSeek-V3.2-Exp模型
北京商报· 2025-09-29 12:58
北京商报讯(记者 魏蔚)9月29日,深度求索正式发布 DeepSeek-V3.2-Exp 模型,在 V3.1-Terminus 的 基础上引入了 DeepSeek Sparse Attention(一种稀疏注意力机制),针对长文本的训练和推理效率进行 了探索性的优化和验证。目前,官方 App、网页端、小程序均已同步更新为 DeepSeek-V3.2-Exp,同时 API (应用程序编程接口)大幅度降价。在新的价格政策下,开发者调用 DeepSeek API 的成本将降低 50% 以上。 ...
DeepSeek,新版本
中国证券报· 2025-09-29 12:39
9月29日,DeepSeek发布DeepSeek-V3.2-Exp模型版本。据介绍,这是一个实验性(Experimental)版 本,在此前版本V3.1-Terminus的基础上引入DeepSeek Sparse Attention(一种稀疏注意力机制),针对 长文本的训练和推理效率进行探索性的优化和验证。目前,DeepSeek的App、网页端、小程序均已同步 更新为DeepSeek-V3.2-Exp。同时,得益于新模型服务成本的大幅降低,API价格也相应下调。在新的价 格政策下,开发者调用DeepSeek API的成本将降低50%以上。 寒武纪表示,公司一直高度重视大模型软件生态建设,支持以DeepSeek为代表的所有主流开源大模 型。借助于长期活跃的生态建设和技术积累,寒武纪得以快速实现对DeepSeek-V3.2-Exp这一全新实验 性模型架构的day 0适配和优化。此前,公司对DeepSeek系列模型进行深入的软硬件协同性能优化,达 成了业界领先的算力利用率水平。针对本次的DeepSeek-V3.2-Exp新模型架构,寒武纪通过Triton算子开 发实现快速适配,利用BangC融合算子开发实现极致性能 ...
DeepSeek-V3.2-Exp模型发布并开源,API价格大幅下调
36氪· 2025-09-29 12:12
模型发布与更新 - DeepSeek-V3.2-Exp模型于9月29日正式发布并在Huggingface与魔搭平台开源 官方App、网页端和小程序同步更新为V3.2-Exp版本 [1] - 新版本为实验性模型 引入DeepSeek Sparse Attention稀疏注意力机制 针对长文本训练和推理效率进行优化验证 [1] - 华为昇腾已基于vLLM/SGLang推理框架完成适配部署 实现DeepSeek-V3.2-Exp 0day支持 并向开发者开源所有推理代码和算子实现 [1] 技术架构创新 - 稀疏注意力机制首次实现细粒度稀疏化 在几乎不影响输出效果前提下大幅提升长文本训练和推理效率 [1] - 新模型研发使用TileLang高级语言进行快速原型开发 最终阶段以TileLang为精度基线改用底层语言实现高效版本 [2] - 开源算子包含TileLang与CUDA两种版本 官方建议研究性实验使用TileLang版本便于调试和快速迭代 [2] 性能评估与迭代历程 - V3.2-Exp训练设置与V3.1-Terminus严格对齐 在各领域公开评测集表现基本持平 [5] - 8月21日发布的V3.1版本采用混合推理架构 同时支持思考与非思考模式 相比DeepSeek-R1-0528思考效率更高 [4] - 9月22日更新至V3.1-Terminus版本 优化语言一致性缓解中英文混杂问题 并强化Code Agent与Search Agent能力 [4] 商业化进展 - 新模型服务成本大幅降低 API价格相应下调超过50% [4] - V3.1版本通过Post-Training优化显著提升工具使用与智能体任务表现 [4]
降价!DeepSeek,大消息!
证券时报网· 2025-09-29 12:07
大消息。 9月29日,DeepSeek宣布,正式发布DeepSeek-V3.2-Exp模型。作为迈向新一代架构的中间步骤,V3.2-Exp在V3.1-Terminus的基础上引入了DeepSeek Sparse Attention(一种稀疏注意力机制),针对长文本的训练和推理效率进行了探索性的优化和验证。 据了解,DeepSeek Sparse Attention(DSA)首次实现了细粒度稀疏注意力机制,在几乎不影响模型输出效果的前提下,实现了长文本训练和推理效率的大幅 提升。 为了严谨地评估引入稀疏注意力带来的影响,DeepSeek特意把DeepSeek-V3.2-Exp的训练设置与V3.1-Terminus进行了严格的对齐。在各领域的公开评测集 上,DeepSeek-V3.2-Exp的表现与V3.1-Terminus基本持平。 | | Benchmark | DeepSeek-V3.1- | DeepSeek-V3.2-Exp | | --- | --- | --- | --- | | | | Terminus | | | | MMLU-Pro | 85.0 | 85.0 | | General | GP ...
“价格屠夫”DeepSeek上线,新模型成本下降超50%
第一财经· 2025-09-29 11:50
卷不过,根本卷不过。 被称为"价格屠夫"的DeepSeek再次挥刀降价了。 9月29日晚间,DeepSeek宣布正式发布 DeepSeek-V3.2-Exp模型,性能仍是稳步提升,但出乎意料的是,调用价格大幅降低,尤其输出价格大降75%,业界人 士表示"这很难卷得过"。DeepSeek提到,在新价格政策下,开发者调用DeepSeek API的成本将降低50%以上。 具体来看,输入价格上,缓存命中时,DeepSeek-V3.2-Exp从0.5元/百万tokens降至0.2元/百万tokens,缓存未命中的价格则从4元/百万tokens降为2元/百万 tokens;输出价格上,从12元/百万tokens直接降到了3元/百万tokens。 此外,为支持社区研究,DeepSeek 还开源了新模型研究中设计和实现的 GPU 算子,包括 TileLang 和 CUDA 两种版本。团队建议社区在进行研究性实验 时,优先使用基于 TileLang 的版本,以便于调试和快速迭代。 值得一提的是,就在9月22日,DeepSeek才发布了DeepSeek-V3.1-Terminus模型,Terminus在拉丁语里是终点、界限的意思 ...