Domain-specific Language

搜索文档
DeepSeek突然拥抱国产GPU语言!TileLang对标CUDA替代Triton,华为昇腾Day0官宣支持适配
量子位· 2025-09-30 00:57
TileLang技术特性 - 专门用于开发GPU内核的领域专用语言,性能对标英伟达CUDA[6] - 采用Python式语法,在TVM之上构建底层编译器基础架构[18] - 核心设计理念是将调度空间与数据流解耦,封装为可自定义的注解和原语[19] - 提供三个层次编程接口:硬件无关高层接口、优化过的预定义操作库、线程原语级别控制[20][21][22][23] - 以"Tile"为编程模型核心概念,通过显式Tile抽象控制数据在内存间的流动[19] TileLang性能表现 - 只需不到100行代码就能写出比Flash Attention 2原版快30%的注意力实现[5] - 在华为昇腾上实现FlashAttention算子开发,代码量从500+行减少至80行,性能与官方版本持平[8] - 在H100上的MLA解码速度与FlashMLA相当[31] - 通过缓存中间数据,比全局内存快得多[28] DeepSeek与TileLang合作 - DeepSeek v3.2开源TileLang版本算子,关注度超过新稀疏注意力机制DSA[2] - DeepSeek团队使用TileLang快速开发原型,后用更底层方法进一步优化性能[26] - TileLang团队成员曾向DeepSeek团队推荐该语言,并以DeepSeek发布的FlashMLA内核作为评测基准[29][31] - DeepSeek v3.2验证了TileLang可用于训练模型[34] 产业生态支持 - 华为昇腾在第一时间公告对TileLang的支持[7] - 沐曦集成电路与TileLang团队讨论GPU适配问题[9] - TileLang由北大团队主导开发,核心人物包括王磊、董宇骐和杨智[15] - GitHub项目获得1.9k星标,172次fork[18]