稀疏注意力机制
搜索文档
在这个开源「从夯到拉」榜单,我终于明白中国 AI 为什么能逆袭
新浪财经· 2025-12-17 14:25
文章核心观点 中国开源大模型在2024年至2025年间实现了全球范围内的领导地位,以DeepSeek、Qwen、Kimi、智谱和MiniMax为代表的国产模型,在性能、价格、生态和可用性等维度上快速逼近甚至超越闭源巨头,正在改变全球AI行业的格局和运行规则 [3][5][116] 全球开源模型排名与格局演变 - 根据AI研究员Nathan Lambert等人的排名,全球开源模型前五名均为中国公司:DeepSeek、Qwen、Kimi、智谱和MiniMax,而OpenAI仅位列第四梯队,Meta的Llama仅获荣誉提名 [3][114] - 2024年曾是Llama主导的天下,但到2025年,国产开源模型已成为全球开发者的默认选择,持续刷新行业选项 [5][116] - 在Hugging Face的热门模型趋势榜上,前四名均为国产开源模型 [86][89] 主要中国开源模型厂商及其技术亮点 - **DeepSeek**:通过混合注意力等机制显著降低成本,打开了高效推理的突破口 [29][98] - **Qwen(阿里巴巴)**:凭借庞大的生态规模,覆盖从4800亿参数到6亿参数的各种尺寸模型,以及视觉语言、代码编写等多领域,几乎渗透整个开源市场 [23][131] - **Kimi(Moonshot AI)**:2025年11月发布万亿参数的混合专家模型Kimi K2 Thinking,采用交错思考技术,一次性能执行300次工具调用,在多个榜单上超越GPT-5和Claude 4.5 [11][122][135] - **MiniMax**:2025年10月底发布MiniMax M2混合专家模型,在综合榜单排名第五,超越Gemini 2.5 Pro和Claude Opus 4.1,其API定价为每百万输入/输出token 0.3美元/1.2美元 [14][124][127][185] - **智谱(Zhipu AI)**:发布GLM系列模型,如GLM-4.5和GLM-4.6,丰富了国产开源生态 [9][10][120] 国产开源模型的竞争优势与市场反馈 - **性能与成本**:国产模型在保持高性能的同时,具备极具竞争力的价格,例如MiniMax M2的价格仅为Anthropic Sonnet模型的1/12 [127][185] - **开发者认可**:海外社交媒体上广泛认可国产模型“好用、便宜”,成为小公司和副业项目的开发首选 [14][124] - **企业应用**:爱彼迎CEO公开表示,中国的开源模型Qwen比OpenAI更适合其实际工作,且更便宜 [25][134] - **具体能力展示**:实测显示,MiniMax M2能一次性生成功能齐全的棋类应用或网站,在处理包含20714个岗位、大小10MB的Excel数据时也表现出色 [16][18][30][35][138][141] 技术路径选择:全注意力与高效注意力之争 - MiniMax M2选择了传统的“全注意力机制”,而非当前流行的稀疏或高效注意力机制,主要原因是全注意力在工业级系统中的性能和可靠性仍然更高 [38][75][144][181] - 高效注意力机制(如线性、稀疏注意力)的核心目标是节省有限的计算资源,但其在复杂推理任务中可能存在隐藏缺陷,且相关基础设施尚不成熟 [41][44][57][147][150][163] - 随着上下文长度需求增长和GPU算力增速放缓,高效注意力的优势未来可能显现,但当前阶段,在质量、速度、价格三角中寻求平衡是关键 [62][75][168][181] 国产开源崛起的驱动因素与行业影响 - **内部竞争与算力限制**:国内模型厂商众多、竞争激烈,且面临算力紧张、芯片受限的困境,开源成为共享算力、避免重复建设、吸引开发者的有效策略 [93] - **构建完整生态**:各厂商通过不同的技术路线(如DeepSeek的成本控制、Qwen的生态规模、MiniMax的智能体能力)共同构建了一个庞大而完整的开源系统,形成了合力 [29][84][97][98] - **改变全球格局**:国产开源模型已成为全球AI生态的底座,全球小团队使用Qwen微调、用DeepSeek做推理基座、用MiniMax做智能体验证已成为常态,导致全球开源生态中心向中国倾斜 [98][109] - **数据佐证**:a16z数据显示,国产开源模型的累计下载量已超过美国模型,且领先优势持续扩大;斯坦福大学2025年AI指数报告也预示国产开源性能将超过闭源和美国模型 [95][97]
DeepSeek V3.2发布!实测效果惊艳,便宜是最大优势
36氪· 2025-12-03 03:57
产品发布与版本概述 - DeepSeek V3.2版本于12月1日晚正式上线并向所有用户开放,同时在各开源社区上传了本地部署模型供所有用户使用[1] - 该版本共有两个版本:在官方网站免费使用的DeepSeek V3.2版和仅支持API服务访问的DeepSeek V3.2-Speciale版,后者拥有更强的推理能力,主要用于探索模型能力的推理上限[2] - V3.2-Speciale版会主动进入"长思考加强"模式,并结合DeepSeek-Math-V2的定理证明能力,使其拥有更强的指令跟随、数学证明和逻辑验证能力[2] 性能表现与基准测试 - DeepSeek V3.2的推理能力基本与OpenAI的GPT-5相近,但成本远低于GPT-5[1] - V3.2-Speciale在官方测试中的推理基准测试成绩直接媲美最新的Gemini-3.0-Pro[2] - 在IMO 2025、CMO 2025、ICPC World Finals 2025及IOI 2025等四项赛事决赛试题测试中均获得金牌成绩,在ICPC和IOI测试中达到人类选手第二及第十名水平[4] - 横向对比中,DeepSeek V3.2-Speciale的赛事成绩全部超越了GPT-5 High[4] - 在具体基准测试中,V3.2-Speciale在AIME 2025得分为96.0(23k),HMMT Feb 2025得分为99.2(27k),IMOAnswerBench得分为84.5(45k),LiveCodeBench得分为88.7(27k),CodeForces得分为2701(77k)[5] 技术创新与成本优势 - 主要技术突破是引入DeepSeek Sparse Attention稀疏注意力机制,通过双版本设计满足不同场景下的推理需求[5] - DSA机制从根本上解决AI大模型在注意力方面的效率问题,通过有选择地计算部分关键元素之间的关联,显著降低所需计算数据[6] - 在DSA机制加持下,128K序列推理成本降低60%以上,推理速度提升约3.5倍,内存占用减少70%,同时模型性能没有明显下降[12] - 在H800集群测试中,序列长度达128K时,预填充阶段每百万token成本从0.7美元降到0.2美元,解码阶段从2.4美元降到0.8美元[12] - DeepSeek V3.2可能成为同级别AI大模型中长文本推理成本最低的模型[12] 功能升级与应用能力 - DeepSeek V3.2允许AI大模型在思考模式下调用工具,调用及使用工具的过程无需训练,使其拥有更强大的通用性能[13] - 作为开源模型可更好兼容使用者自制的工具[13] - 模型具备自主决策使用工具的能力,能够分步骤使用搜索和数学工具解决问题,并进行多轮答案验证[16][19][21] - 新功能使模型可通过拆解问题、逐个提问并针对问题使用不同工具来给出更好的解决方案,最后整合所有回答[21] 行业影响与市场定位 - DeepSeek V3.2在多个权威基准中对标GPT-5、Gemini 3.0 Pro,但推理成本只有行业主流模型三分之一甚至更低[22] - 模型以完全开源方式发布,终结了"开源模型永远落后闭源模型8个月"的行业争论[22] - DSA带来的成本革命对AI大模型商业化造成显著影响,成本下降60%不仅关系运营成本,还包括前期部署成本,使小型企业都可借助DeepSeek训练出更强模型[22] - 长文本交互价格足够低后,高级AI应用将不再局限于企业级市场,能更好推广到消费级市场使用,可能极大加速"AI工具取代传统软件"的趋势[23]
DeepSeek又上新!模型硬刚谷歌
第一财经· 2025-12-01 14:05
模型发布与性能表现 - DeepSeek于12月1日晚发布两款新模型DeepSeek-V3-2和DeepSeek-V3-2-Speciale,在推理能力上全球领先 [3] - DeepSeek-V3-2定位为平衡推理能力与输出长度,适合日常使用,在公开推理测试中达到GPT-5水平,仅略低于谷歌Gemini3 Pro [5] - DeepSeek-V3-2-Speciale是长思考增强版,结合DeepSeek-Math-V2的定理证明能力,在多个推理基准测试中超越谷歌Gemini3 Pro [5][6] - Speciale模型在AIME 2025测试中得分96-0,超过Gemini3 Pro的95-0;在HMMT Feb 2025测试中得分99-2,超过Gemini3 Pro的97-5 [7] - Speciale模型斩获IMO、ICPC World Finals及IOI金牌,ICPC与IOI成绩分别达到人类选手第二名与第十名水平 [7] 技术优势与创新 - DeepSeek在9月底提出稀疏注意力机制(DSA),此次发布的两款模型均引入该机制,大幅降低计算复杂度 [11] - V3-2在智能体场景中成为具有成本效益的替代方案,不仅缩小开源模型与前沿专有模型的性能差距,成本也显著降低 [11] - 稀疏注意力机制解决了关键的计算复杂性问题,在不牺牲长上下文性能的前提下实现性能大幅提升 [11] 行业竞争格局 - 当前开源与闭源模型的差距在拉大,闭源专有模型如谷歌、OpenAI、Anthropic的性能增长速度显著更快 [9][10] - 闭源模型与开源模型之间的性能差距日益扩大,专有系统在复杂任务中展现出越来越强的优势 [10] - 开源模型存在三个关键缺陷:对标准注意力机制的过度依赖、后训练阶段计算投入不足、AI智能体领域泛化能力和指令遵循能力存在差距 [10] 模型局限性 - V3-2的世界知识广度仍落后于领先的专有模型,在令牌效率方面需要更多令牌才能达到Gemini3 Pro的输出质量 [8] - 在编程、理工科博士生测试中略逊于谷歌,LiveCodeBench得分88-7低于Gemini3 Pro的90-7,GPQA Diamond得分85-7低于Gemini3 Pro的91-9 [7][8] - 在解决复杂任务方面不如前沿模型,团队计划通过增加预训练计算量填补知识空白,优化模型推理链的智能密度以提高效率 [8]
AGI 新技术路线:下一代稀疏注意力机制 Monte Carlo Attention 开源
AI科技大本营· 2025-11-10 01:03
文章核心观点 - 超对称技术公司在新版基座模型 BigBang-Proton 中引入了创新的 Monte Carlo 注意力机制,该机制通过二进制块编码和块间代表交流机制,实现了线性计算复杂度,并兼具稀疏注意力、状态空间和线性注意力的优点,同时规避了它们的缺点 [1] - Monte Carlo 注意力机制旨在解决宇宙尺度科学建模所需的超长上下文长度问题,其有效上下文长度可随层数呈指数级增长,理论上可达 10¹⁵⁰ 级别,远超当前大语言模型 10⁵-10⁶ 的限制 [2][3][30] - 该技术突破了传统 Transformer 的 O(L²) 计算复杂度瓶颈,降低至 O(L),并消除了训练中对 GPU 内存的依赖,可能减少收敛所需训练步数,对现有预训练技术和硬件设计具有深远影响 [3][4] 技术架构与核心组件 - BigBang-Proton 架构由三个核心组件构成:Binary Patch Encoding 的嵌入输入、Monte Carlo Attention 以及前馈时序卷积网络 [7][8] - Binary Patch Encoding 的输入词汇表包含 0-255 的字节值和三个特殊 token,总大小为 259,每个输入 token 通过 one-hot 编码转换为 259 维稀疏向量后投影到稠密嵌入空间 [8] - 前馈时序卷积网络取代了传统的前馈全连接网络,以捕捉局部空间和时间模式,其固有的卷积特性使模型无需使用显式位置嵌入 [8][37] Monte Carlo 注意力机制原理 - 核心创新是块间代表交流机制:输入嵌入被分组为特定大小的块,每个块随机或选择性地指定一个字节作为代表,与其他块交换信息 [12] - 通过 Delegate 操作和序列重组,信息在全局范围内流动,而计算复杂度仅取决于块大小的平方 O(P²),而非序列总长度 [12][13] - 有效上下文长度的递归关系为 C(N) = (P-1) × P^N + C(N-1),当块大小 P=32 时,第 1 层上下文长度可达 992,第 2 层可达 32,736,层数加深后呈指数增长 [14][15][30] 与传统注意力机制的对比优势 - 与稀疏注意力相比,Monte Carlo 注意力通过基于重组的机制避免了信息丢失和选择偏差问题,实现了更优的上下文长度复杂度 [40][42] - 与状态空间模型相比,该方法通过直接的全局信息交换避免了线性时不变性约束、低秩近似相关的精度损失以及数值不稳定问题 [43][44] - 与线性注意力相比,Monte Carlo 注意力在增强的局部-全局上下文中进行精确计算,保持了完整的注意力表达能力,避免了核函数映射导致的信息丢失 [44][45] 性能与效率提升 - 计算复杂度从 O(L²) 降低到 O(L),对于 10⁸ 的上下文长度,在块大小为 4 时,计算量减少 99.99%,速度提升高达 195,313 倍 [4][34] - 该方法无须分阶段训练即可实现理论上无限的上下文长度,并能训练比设备内存容量长多个数量级的序列,缓解了传统的批次处理约束 [3][4] - 引入了循环 Monte Carlo Attention 来解决迭代表征传播过程中可能的信息退化问题 [33][41]
国产芯片厂商争相认领新版DeepSeek
21世纪经济报道· 2025-10-01 15:00
模型发布与技术更新 - 深度求索公司于9月29日晚间发布DeepSeek-V3.2-Exp模型,实验性地引入DeepSeek Sparse Attention稀疏注意力机制,显著降低计算资源消耗并提升推理效率[1] - 新模型发布后,公司官方App、网页端、小程序同步更新,并全面下调API价格,降幅在50%到75%不等[1] - 新版本在V3.1-Terminus基础上引入稀疏注意力机制,针对长文本的训练和推理效率进行探索性优化和验证,所采用机制疑似基于公司2025年2月发表论文中的原创机制[7] 国产芯片生态协同 - DeepSeek-V3.2-Exp发布几乎零时差引发华为、寒武纪、海光等国产芯片厂商“认领”,标志着国产AI软硬件生态协同初具雏形[1] - 寒武纪在新模型发布后4分钟率先宣布适配,开源大模型推理引擎vLLM-MLU源代码[1] - 华为昇腾基于vLLM/SGLang等推理框架完成适配部署,实现DeepSeek-V3.2-Exp的0day支持,并向开发者开源所有推理代码和算子实现[2] - 海光信息表示其DCU已实现对DeepSeek-V3.2-Exp的无缝适配和深度调优,新模型在海光DCU上展现出优异性能[2] 行业标准与生态建设 - DeepSeek几乎已获得国产推理模型大部分份额,成为国产开源模型标杆,由深度求索公司来定义国产芯片或组建国产芯片生态更为合适[4] - 行业专家认为顺序应该是DeepSeek先去定义国产芯片标准,让国产芯片厂商跟进,让DeepSeek定义行业,而非DeepSeek模型去适配国产芯片[5] - 深度求索公司在8月下旬发布DeepSeek-V3.1版本,明确模型将适配下一代“UE8M0”浮点格式国产芯片,为国产芯片发展指明方向[7] 技术开发与工具创新 - 深度求索模型在兼容CUDA基础上,使用高级语言“TileLang”进行快速原型开发,TileLang作为精度基线逐步使用底层语言实现更高效版本[8] - TileLang是专为AI算子开发设计的编程语言,由北京大学计算机学院杨智团队主导开发,TileAI社区发起人王磊博士团队于2025年1月开源[9] - 公司CEO梁文锋位列相关论文作者名单,显示公司深度参与核心技术研发[8] 云计算与产业应用 - 腾讯云于9月16日宣布已全面适配主流国产芯片,并积极参与开源社区建设[9] - 阿里云在云栖大会表示推动“一云多芯”战略,验证并深度适配多家国产AI芯片,将其纳入自身算力底座[9] - 相比英伟达用二十年建立生态,DeepSeek几乎用了不到一年时间飞速完成初步生态追赶[9]
DeepSeek 与国产芯片开启“双向奔赴”
21世纪经济报道· 2025-09-30 12:13
模型发布与技术更新 - 深度求索公司于9月29日晚间发布DeepSeek-V3.2-Exp模型,实验性引入DeepSeek Sparse Attention稀疏注意力机制,显著降低计算资源消耗并提升推理效率 [1] - 得益于技术创新,公司官方App、网页端、小程序同步更新为新模型,并全面下调API价格,降幅在50%到75%不等 [1] - 新版本在V3.1-Terminus基础上引入稀疏注意力机制,针对长文本训练和推理效率进行探索性优化和验证,所采用机制疑似基于公司2025年2月发表论文中的原创机制 [5] 国产芯片生态协同 - V3.2-Exp版本发布后几乎零时差引发华为昇腾、寒武纪、海光等国产芯片厂商“认领”适配,标志着国产AI软硬件生态协同初具雏形 [1][2] - 寒武纪在模型发布后4分钟即宣布同步完成适配并开源大模型推理引擎vLLM-MLU源代码,华为昇腾表示基于vLLM/SGLang等框架完成0day支持并开源所有推理代码和算子实现,海光信息称其DCU实现无缝适配加深度调优 [2] - 深度求索已成为新的生态建设者,其模型获得国产推理模型大部分份额,成为国产开源模型标杆,由公司定义国产芯片标准或组建生态被视为更合适做法 [2][3] 技术路线与生态发展 - 公司模型在兼容CUDA基础上,使用专为AI算子开发设计的编程语言TileLang进行快速原型开发,该语言由北京大学团队主导开发并于2025年1月开源 [5][6] - 8月下旬发布的V3.1版本明确模型将适配下一代“UE8M0”浮点格式国产芯片,为国产芯片发展指明方向,尽管当时未有企业认领此格式 [4] - 中国本土AI行业对DeepSeek模型形成高度共识,腾讯云、阿里巴巴等云计算大厂积极适配国产芯片并参与开源社区建设,推动“一云多芯”战略 [6] - 相比英伟达用二十年建立生态,DeepSeek用了不到一年时间飞速完成初步生态追赶,业界认为2025年国产芯片发展迅速归功于DeepSeek的横空出世 [3][6]
AI日报丨再套现超4000万美元!黄仁勋持续减持英伟达,看好OpenAI称其或成为下一个万亿美元巨头
美股研究社· 2025-09-30 12:06
AI技术进展 - 智谱旗舰模型GLM-4.6上线,代码能力比前代GLM-4.5提升27%,在74个真实编程任务中超越其他国产模型[5] - DeepSeek在下一代AI模型中首次引入"稀疏注意力"机制DSA,可在长上下文中进行更快、更高效的训练和推理[5] - Anthropic推出Claude Sonnet 4.5模型,号称"全球最佳编码模型",在SWE-bench Verified等编码基准测试中展现出顶尖性能,能构建可投入生产使用的应用程序[6] 行业生态与商业应用 - OpenAI在ChatGPT中推出与Etsy和Shopify的即时结账功能,允许用户直接通过AI聊天机器人购物,目前仅支持单件商品购买[7] - OpenAI的Sora AI视频生成器默认使用受版权保护内容,但影视工作室可选择"退出"该机制,新版本将采用与图像生成工具类似的版权保护机制[12][13] 公司动态与高管观点 - 英伟达CEO黄仁勋于9月25日至29日售出22.5万股公司股票,套现超4000万美元(约2.85亿元人民币)[7] - 黄仁勋预测OpenAI极有可能成为世界上下一个价值数万亿美元的超大规模公司,其"双重指数级增长"可能推动公司估值创下行业历史上最快的增长速度[7][8]
DeepSeek,与国产芯片开启“双向奔赴”
21世纪经济报道· 2025-09-30 11:52
模型发布与技术更新 - 深度求索公司于9月29日晚间发布DeepSeek-V3.2-Exp模型,实验性地引入DeepSeek Sparse Attention稀疏注意力机制,显著降低计算资源消耗并提升推理效率 [1] - 新模型在V3.1-Terminus基础上引入稀疏注意力机制,针对长文本训练和推理效率进行探索性优化和验证,所采用机制疑似基于公司2025年2月论文中的原创机制 [6] - 公司同步更新官方App、网页端、小程序至新模型,并全面下调API价格,降幅在50%到75%不等 [1] 国产芯片生态协同 - 新版模型发布后迅速获得寒武纪、华为昇腾、海光信息等国产芯片厂商适配,寒武纪在4分钟内率先宣布适配并开源大模型推理引擎vLLM-MLU源代码 [2] - 华为昇腾基于vLLM/SGLang等推理框架完成适配部署,实现0day支持并向开发者开源所有推理代码和算子实现 [2] - 海光信息表示其DCU已实现对模型的无缝适配和深度调优,验证了海光DCU高通用性、高生态兼容度及自主可控的技术优势 [2] 行业标准与生态建设 - DeepSeek已获得国产推理模型大部分份额,成为国产开源模型标杆,行业认为由深度求索定义国产芯片标准或组建国产芯片生态更为合适 [2] - 相比英伟达用二十年建立生态,DeepSeek用了不到一年时间飞速完成初步生态追赶,腾讯云、阿里巴巴等云厂商积极适配国产芯片并参与开源社区建设 [7] - 公司模型在兼容CUDA基础上使用专为AI算子开发设计的编程语言TileLang进行快速原型开发,该语言由北京大学团队主导开发并于2025年1月开源 [6] 技术发展路径 - DeepSeek-V3.1版本明确模型将适配下一代“UE8M0”浮点格式国产芯片,为国产芯片发展指明方向,但当时未有企业主动认领该格式 [5] - 业内专家认为发展顺序应是DeepSeek先定义国产芯片标准,让芯片厂商跟进,而非让模型去适配芯片 [3] - 国产芯片行业本质是“Know-How”行业,只要业界形成共识,芯片与算力生态围绕标准发展的进度将会异常快捷 [3]
华为昇腾、寒武纪宣布适配DeepSeek最新模型
21世纪经济报道· 2025-09-30 10:19
模型发布与核心技术创新 - 公司于9月29日正式发布DeepSeek-V3.2-Exp模型,该模型是在V3.1-Terminus基础上的探索性版本 [1] - 新模型首次引入自研的DeepSeek Sparse Attention稀疏注意力机制,旨在优化长文本的训练和推理效率 [1] - DSA机制能够自适应选择关键注意力头与局部上下文窗口,相比传统稠密注意力机制,在处理长文本时计算量呈指数级增长的问题得到解决,方案更高效且成本更低 [7][1] 性能表现与成本优势 - 通过引入DSA机制,V3.2-Exp实现了长文本训练和推理效率的大幅提升,同时在各项核心能力上与V3.1-Terminus保持基本持平 [7] - 得益于新模型服务成本大幅降低,DeepSeek API价格下调50%以上,显著降低了开发者的调用成本 [2][10] 开源策略与生态协同 - 公司将DeepSeek-V3.2-Exp模型在Huggingface和ModelScope平台上全面开源,相关论文也已同步公开 [5] - 新模型发布后,华为昇腾、寒武纪和海光信息第一时间宣布完成适配,显示出国产AI软硬件生态的协同发展 [11] - 公司开源了TileLang版本算子,该国产编程语言由北京大学团队开发,能将FlashAttention算子代码量从超500行减少至80行并保持性能,显著提升AI算子开发效率 [11][3] 版本状态与行业影响 - DeepSeek-V3.2-Exp定位为实验版本,公司认识到新模型仍需在更广泛用户真实场景中进行大规模测试 [4] - 公司为方便用户对比测试,为V3.1-Terminus临时保留额外API访问接口至10月15日,调用价格与V3.2-Exp一致 [4] - 华为计算宣布昇腾已实现DeepSeek-V3.2-Exp 0day支持,并面向开发者开源所有推理代码和算子实现,表明国产模型、编程语言与算力正深度协同共进 [12]
华为昇腾、寒武纪宣布适配DeepSeek最新模型
21世纪经济报道· 2025-09-30 10:13
模型发布与核心特性 - DeepSeek-V3.2-Exp模型于9月29日正式发布,是在V3.1-Terminus基础上的实验版本[1] - 新模型首次引入自研的DeepSeek Sparse Attention稀疏注意力机制,针对长文本训练和推理效率进行优化验证[1] - DSA机制能够自适应选择关键注意力头与局部上下文窗口,相比传统稠密注意力机制计算更高效、成本更低[1][3][4] 技术优势与性能表现 - 传统Transformer全连接注意力机制计算复杂度随文本长度呈指数级增长,DSA针对长文本处理的主要计算瓶颈实现细粒度稀疏注意力机制[2][4] - V3.2-Exp在长文本训练和推理效率上实现大幅提升,同时在与V3.1-Terminus的严格对齐比较中各项核心能力保持基本持平水准[4] - 模型已在Huggingface和ModelScope平台全面开源,相关论文同步公开[2] 成本优化与市场策略 - 得益于新模型服务成本大幅降低,DeepSeek API价格下调50%以上[1][5] - 为方便用户对比测试,DeepSeek为V3.1-Terminus临时保留额外API访问接口,开放至10月15日,调用价格与V3.2-Exp一致[2] - 公司认识到新模型仍需在更广泛用户真实场景中进行大规模测试,以排除某些场景下效果欠佳的可能[2] 生态合作与国产化进展 - DeepSeek V3.2-Exp发布后,华为昇腾、寒武纪和海光信息第一时间宣布完成适配,显示国产AI软硬件生态协同发展[6][7] - 公司开源新模型研究中设计的GPU算子,包括TileLang和CUDA两种版本,建议研究性实验使用基于TileLang版本方便调试和快速迭代[7] - TileLang是由北京大学团队主导开发的开源AI算子编程语言,专门为简化复杂GPU算子开发而设计,实现FlashAttention算子代码量从超500行减少至80行并保持性能持平[7] - 华为计算宣布昇腾已实现DeepSeek-V3.2-Exp 0day支持,并面向开发者开源所有推理代码和算子实现,表明国产模型、编程语言与算力深度协同共进[8][10]