Workflow
Tile编程模型
icon
搜索文档
英伟达自毁CUDA门槛,15行Python写GPU内核,性能匹敌200行C++
36氪· 2025-12-08 07:23
GPU编程变天了。 英伟达发布最新版CUDA 13.1,官方直接定性:这是自2006年诞生以来最大的进步。 核心变化是推出全新的CUDA Tile编程模型,让开发者可以用Python写GPU内核,15行代码就能达到200行CUDA C++代码的性能。 消息一出,芯片界传奇人物Jim Keller立即发问: 英伟达是不是亲手终结了CUDA的"护城河"?如果英伟达也转向Tile模型,AI内核将更容易移植到其他硬件上。 Jim Keller参与设计过AMD Zen架构、苹果A系列芯片、特斯拉自动驾驶芯片的"硅仙人",他的判断在行业里相当有分量。 那么问题来了:CUDA这次到底改了什么?为什么会被认为是"自毁长城"? GPU编程范式从"线程"到"瓦片" 要理解这次更新的意义,得先回顾一下传统CUDA编程有多折磨人。 过去20年,CUDA一直采用SIMT(单指令多线程)模型,开发者写代码时,需要手动管理线程索引、线程块、共享内存布局、线程同步,每一个细节都 要自己操心。 想要充分利用GPU性能,特别是用上Tensor Core这类专用模块,更是需要深厚的经验积累。 CUDA Tile彻底改变了这套玩法: 开发者不再需要 ...
英伟达自毁CUDA门槛!15行Python写GPU内核,性能匹敌200行C++
量子位· 2025-12-08 04:00
梦晨 发自 凹非寺 量子位 | 公众号 QbitAI GPU编程变天了。 英伟达发布最新版 CUDA 13.1 ,官方直接定性: 这是自2006年诞生以来最大的进步 。 核心变化是推出全新的 CUDA Tile编程模型 ,让开发者可以 用Python写GPU内核 ,15行代码就能达到200行CUDA C++代码的性能。 消息一出,芯片界传奇人物 Jim Keller 立即发问: 英伟达是不是亲手终结了CUDA的"护城河"?如果英伟达也转向Tile模型,AI内核将更容易移植到其他硬件上。 Jim Keller参与设计过AMD Zen架构、苹果A系列芯片、特斯拉自动驾驶芯片的"硅仙人",他的判断在行业里相当有分量。 那么问题来了:CUDA这次到底改了什么?为什么会被认为是"自毁长城"? GPU编程范式从"线程"到"瓦片" 要理解这次更新的意义,得先回顾一下传统CUDA编程有多折磨人。 过去20年,CUDA一直采用 SIMT(单指令多线程)模型 ,开发者写代码时,需要手动管理线程索引、线程块、共享内存布局、线程同步, 每一个细节都要自己操心。 想要充分利用GPU性能,特别是用上Tensor Core这类专用模块,更 ...
DeepSeek突然拥抱国产GPU语言,TileLang对标CUDA替代Triton,华为昇腾Day0官宣支持适配
36氪· 2025-09-30 02:52
TileLang技术特性 - TileLang是一种专门用于开发GPU内核的领域专用语言,性能可对标英伟达CUDA,采用Python式语法并在TVM之上构建编译器基础架构[4][13] - 其核心设计理念是将调度空间与数据流解耦并封装为可自定义的注解和原语,以Tile作为编程模型核心概念,直观控制数据在全局内存、共享内存和寄存器间的流动[15] - 提供三个层次编程接口:硬件无关的高层接口供初学者使用,包含预定义优化操作的Tile Library供有经验开发者使用,以及允许直接操作线程同步等底层特性的线程原语供专家用户使用[15] 性能优势与效率提升 - 使用TileLang只需不到100行代码就能写出比Flash Attention 2原版快30%的注意力实现[3] - 在FlashAttention算子开发中,代码量从500多行减少至80行,并保持与官方版本持平的性能[5] - 在H100上的MLA解码速度,TileLang编写的内核做到与FlashMLA相当[21] 行业生态适配与合作 - TileLang与国产算力生态适配,华为昇腾在第一时间公告对TileLang的支持[4] - 沐曦集成电路的高级总监董兆华与TileLang团队成员共同讨论沐曦GPU与TileLang的适配[5] - 该语言由北大团队主导开发,核心人物包括王磊、董宇骐以及北大计算机学院副研究员、博士生导师杨智[9] DeepSeek与TileLang的合作关系 - DeepSeek在v3.2中开源TileLang版本算子,其受关注程度超过新稀疏注意力机制DSA[1] - DeepSeek团队使用TileLang快速开发原型,之后用更底层的方法进一步优化性能,v3.2论文中提到在内核层面共享k-v提升计算效率,让DSA的闪电索引器机制运行速度远超传统实现[17] - DeepSeek v3.2验证了TileLang确实可以用来训练模型,TileLang发起人王磊发帖致敬DeepSeek敢于使用新编程语言开发核心产品[23]