Workflow
CUDA内核
icon
搜索文档
OpenAI神秘狠人,花名Bob
量子位· 2025-09-21 13:29
Jay 发自 凹非寺 量子位 | 公众号 QbitAI 在OpenAI,有一个神秘人专门负责推理用的CUDA内核。 同事们管他叫Bob,人们会把他写的注意力内核亲切地称为 Bob内核 。 这个内核每天可能在数十万张GPU上被执行 万亿次 。 要知道,这个环节对精度的要求非常高,如果出bug,需要回滚checkpoint重训,会浪费大量的算力资源。 有网友感叹: 全世界能写出高性能训练用CUDA内核的人,活着的不超过100个。 就是这么一个"地狱级难度"的东西,在OpenAI居然 只靠Bob一个人 。 Bob内核能力者 OpenAI前员工感叹,Bob轻轻松松在几分钟内修好了自己一周都没搞定的问题。 坊间传言,小扎已经知道了这个消息,已经火急火燎地安排上了,Meta明天招聘会议的Top 1事项就是:"Bob到底是谁!" 其他前员工也附议,表示OpenAI对Bob的依赖极高。 公司内部的Slack上专门有一个"Bob magic"表情包,用来来膜拜Bob——无人能不折服于他那"巫师"般的能力。 还有些员工打趣道: 如果Bob心血来潮想出去度假一周,那整个公司可就要准备好面临生死存亡的终极阶段了 。 既然是这么重磅级 ...
斯坦福意外用AI生成超强CUDA内核,性能比人类专家优化得还要好!翻倍碾压原生PyTorch,华人主创
量子位· 2025-05-31 03:34
AI生成内核性能超越人工优化 - 斯坦福研究发现AI意外生成的内核性能超越人类专家优化版本,在NVIDIA L40S GPU测试中最高提升400% [1][2] - 测试阶段生成的合成数据可直接产生高性能内核,无需专门训练生成模型 [4][40] - 具体性能提升:层归一化达PyTorch的484.4%,Conv2D+ReLU+MaxPool组合操作达PyTorch参考实现的290.1% [6] 创新优化方法 - 采用语言推理步骤增强搜索多样性,通过"思考"产生优化思路而非逐步修改 [9][10] - 使用多分支探索模式,每个想法衍生多个实现并选择性能最优者作为下一轮种子 [15][16] - 优化策略包括内存访问优化、异步操作、数据类型优化等6大类技术 [24] 技术实现细节 - 内核用纯CUDA-C编写,无需CUTLASS和Triton等库 [13] - 通过自然语言生成优化思想再转化为代码变体,避免陷入局部最优 [14] - 使用OpenAI o3和Gemini 2.5 Pro在KernelBench 1级任务测试,最佳结果多出现在第4-5轮 [18][19] 研究背景与团队 - 华人主创团队包括斯坦福博士生Anne Ouyang(前英伟达cuDNN团队)、助理教授Azalia Mirhoseini(前DeepMind/Google Brain)和Percy Liang教授 [29][30][32][35] - 研究初衷为生成训练数据,意外发现测试数据可直接产生优质内核 [39][40][41] - 搜索资源消耗仅300万token输入和400万token输出 [49] 行业影响与展望 - 与DeepMind AlphaEvolve等研究共同显示大模型能力达到新层级 [21][45] - 显示大规模再训练非必需,智能搜索策略可解决复杂问题 [44][45] - 当前局限:FP16 Matmul性能仅达torch.matmul的52%,Flash Attention仅9% [46] - Cognition公司已开源强化学习编写CUDA内核的Kevin-32B模型 [51][52]