Workflow
TileLang
icon
搜索文档
DeepSeek 与国产芯片开启“双向奔赴”
21世纪经济报道· 2025-09-30 12:13
9月29日晚间,深度求索公司发布了 DeepSeek-V3.2-Exp 模型,其宛如再次向国产芯片江湖投入一枚巨 石。 官方公告显示,新版本模型实验性地引入了 DeepSeek Sparse Attention(一种稀疏注意力机制),其显 著降低计算资源消耗并提升推理效率。 而得益于这一技术创新,深度求索宣布其官方App、网页端、小程序均已同步更新为新模型,并全面下 调API价格,降幅在50%到75%不等。 值得注意的是,不同于上次发布 DeepSeek-V3.1版本时"犹抱琵琶半遮面"的状态,此次 V3.2 EXP 版本 的发布,几乎零时差引发数个国产芯片厂商——华为、寒武纪、海光等的"认领"。 而这也标志着,国产AI软硬件生态的协同,已经在 DeepSeek 横空出世之后初具雏形。 争相"认领" 就在 DeepSeek 新版放出之后仅仅4分钟,寒武纪就对新模型适配的国产芯片进行"率先认领"。 紧随其后的则是华为昇腾,其表示,基于vLLM/SGLang等推理框架完成适配部署,实现DeepSeek-V3.2- Exp的0day支持,并向开发者开源所有推理代码和算子实现。 海光信息随后也表示,其DCU已实现对D ...
华为昇腾、寒武纪宣布适配DeepSeek最新模型
21世纪经济报道· 2025-09-30 10:19
9月29日,DeepSeek-V3.2-Exp模型正式发布。 V3.2-Exp在V3.1-Terminus的基础上首次引入了团队自研的DeepSeek Sparse Attention (一种稀疏注意力机制,DSA),针对 长文本的训练和推理效率进行了探索性的优化和验证。 DSA是一种针对Transformer架构的优化技术。在大语言模型的技术机制中,注意力机制是一个核心组件,决定了模型如何 在文本序列中聚焦关键信息,实现语义理解与生成。 简单对比来看,在Transformer架构中,传统的注意力机制是"稠密的",处理长文本时计算量会呈指数级增长。DSA则是一 种"稀疏"方案,更高效,成本也更低。 得益于新模型服务成本的大幅降低,DeepSeek API的价格也大幅下调50%以上。 除技术创新与价格"腰斩"外, DeepSeek此次开源TileLang版本算子,同样引发业内高度关注。 实验版本 当日更早时候,有不少业内人士注意到,DeepSeek将 v3.2-base 上传至DeepSeek在社区平台HuggingFace的官方页面,但很 快被删除。此后,DeepSeek正式公告新版本DeepSeek-V3. ...
华为昇腾、寒武纪宣布适配DeepSeek最新模型
21世纪经济报道· 2025-09-30 10:13
记者丨 陈归辞 编辑丨卜羽勤 9月29日,DeepSeek-V3.2-Exp模型正式发布。 V3.2-Exp在V3.1-Terminus的基础上首次引入了团队自研的DeepSeek Sparse Attention (一种 稀疏注意力机制,DSA),针对长文本的训练和推理效率进行了探索性的优化和验证。 DSA是一种针对Transformer架构的优化技术。在大语言模型的技术机制中,注意力机制是一 个核心组件,决定了模型如何在文本序列中聚焦关键信息,实现语义理解与生成。 简单对比来看,在Transformer架构中,传统的注意力机制是"稠密的",处理长文本时计算量 会呈指数级增长。DSA则是一种"稀疏"方案,更高效,成本也更低。 得益于新模型服务成本的大幅降低,DeepSeek API的价格也大幅下调50%以上。 除技术创新与价格"腰斩"外, DeepSeek此次开源TileLang版本算子,同样引发业内高度关 注。 实验版本 当日更早时候,有不少业内人士注意到,DeepSeek将 v3.2-base 上传至DeepSeek在社区平台 HuggingFace的官方页面,但很快被删除。此后,DeepSeek正式公 ...
DeepSeek突然拥抱国产GPU语言,TileLang对标CUDA替代Triton,华为昇腾Day0官宣支持适配
36氪· 2025-09-30 02:52
DeepSeek v3.2有一个新改动,在论文里完全没提,只在官方公告中出现一次,却引起墙裂关注。 开源TileLang版本算子,其受关注程度甚至超过新稀疏注意力机制DSA,从画线转发的数量就可以看出来。 海外社区也注意到DeepSeek使用了它而不是OpenAI开发的Triton语言。 有接触过的开发者感叹TileLang是一种非常优雅的语言,只需不到100行代码就能写出比Flash Attention 2原版快30%的注意力实现。 那么什么是TileLang,又为何引人瞩目? 首先,TileLang是一种专门用来开发GPU内核的领域专用语言,性能上可以对标英伟达CUDA,DeepSeek官方推荐使用此版本做实验,在方便调试和快速 迭代上有优势。 更重要的是,TileLang与国产算力生态适配,连华为昇腾都要在第一时间公告对TileLang的支持。 在几周前的华为全联接大会2025的开发者日上,TileLang团队成员董宇骐就介绍了TileLang实现FlashAttention算子开发,代码量从500+行减少至80行,并 保持了与官方版本持平的性能。 此外TileLang团队成员王磊和沐曦集成电路的高级总 ...
DeepSeek 开源 TileLang 与 CUDA 算子:AI 底层国产替代的关键尝试
小熊跑的快· 2025-09-30 01:11
本次发布为实验版本,主要有两块内容一是DSA ( DeepSeek Sparse Attention),探索在长文本下的训 练及推理降本,成本又打骨折了,但这个其实之前其他厂商也有类似尝试,倒也不算意外 。 我个人觉得第二块内容开源 开源 TileLang 与 CUDA 算子版本, 意义反倒比较重大,重点聊聊 从国产替代的角度来看,DeepSeek 开源 TileLang 与 CUDA 算子版本的动作,本质上是在 AI 底层技术 栈(尤其是 GPU 算子开发领域)推动 "自主可控" 与 "生态破局" 的关键尝试,其意义可从技术自主 权、国产硬件适配、生态协同、创新效率四个维度深度解析: 一、打破 CUDA 生态垄断,争夺算子开发技术自主权 CUDA 作为 NVIDIA 主导的闭源异构计算平台,长期垄断全球 GPU 算子开发标准 —— 从底层指令集 到上层算子库(如 cuBLAS、cuDNN),几乎所有主流 AI 框架(PyTorch、TensorFlow)和大模型训练 推理都高度依赖其生态。这种垄断导致两个核心问题: 技术卡脖子风险:国内若长期依赖 CUDA 算子,在新模型研发中(如大模型 MoE 结构、多模 ...
DeepSeek突然拥抱国产GPU语言!TileLang对标CUDA替代Triton,华为昇腾Day0官宣支持适配
量子位· 2025-09-30 00:57
TileLang技术特性 - 专门用于开发GPU内核的领域专用语言,性能对标英伟达CUDA[6] - 采用Python式语法,在TVM之上构建底层编译器基础架构[18] - 核心设计理念是将调度空间与数据流解耦,封装为可自定义的注解和原语[19] - 提供三个层次编程接口:硬件无关高层接口、优化过的预定义操作库、线程原语级别控制[20][21][22][23] - 以"Tile"为编程模型核心概念,通过显式Tile抽象控制数据在内存间的流动[19] TileLang性能表现 - 只需不到100行代码就能写出比Flash Attention 2原版快30%的注意力实现[5] - 在华为昇腾上实现FlashAttention算子开发,代码量从500+行减少至80行,性能与官方版本持平[8] - 在H100上的MLA解码速度与FlashMLA相当[31] - 通过缓存中间数据,比全局内存快得多[28] DeepSeek与TileLang合作 - DeepSeek v3.2开源TileLang版本算子,关注度超过新稀疏注意力机制DSA[2] - DeepSeek团队使用TileLang快速开发原型,后用更底层方法进一步优化性能[26] - TileLang团队成员曾向DeepSeek团队推荐该语言,并以DeepSeek发布的FlashMLA内核作为评测基准[29][31] - DeepSeek v3.2验证了TileLang可用于训练模型[34] 产业生态支持 - 华为昇腾在第一时间公告对TileLang的支持[7] - 沐曦集成电路与TileLang团队讨论GPU适配问题[9] - TileLang由北大团队主导开发,核心人物包括王磊、董宇骐和杨智[15] - GitHub项目获得1.9k星标,172次fork[18]