CUDA内核
搜索文档
OpenAI神秘狠人,花名Bob
量子位· 2025-09-21 13:29
文章核心观点 - OpenAI内部存在一位被称为“Bob”的关键工程师,其负责开发的高性能CUDA内核(Bob内核)对公司的AI模型训练至关重要,该内核每天在数十万张GPU上执行万亿次[1][2][3] - Bob的技术能力极为突出,被同事视为“巫师”,公司对其依赖度极高,其工作直接影响算力资源效率,若出bug会导致需要回滚checkpoint重训,浪费大量算力[4][6][8][9] - 行业推测Bob的真实身份是OpenAI资深技术人员Scott Gray,其背景与Bob内核的技术特征高度吻合,Scott拥有丰富的GPU内核优化经验,曾发表核心论文并参与多项重磅研究[16][17][19][22] - 硅谷AI公司对顶尖技术人才的争夺激烈,Meta等公司正积极瞄准此类核心人才,OpenAI此前已有核心研究员被Meta挖走,此次Bob身份的曝光可能引发新一轮人才竞争[10][26][28][29] 关键人物分析 - Bob是OpenAI内部神秘的核心工程师,专门负责推理用的CUDA内核开发,同事称其内核为“Bob内核”,他一人承担了这一高难度任务[1][2][6] - Bob的技术能力极强,能在几分钟内解决他人一周无法解决的问题,公司内部有“Bob magic”表情包对其表示膜拜[7][9] - 行业推测Bob的真实身份是Scott Gray,其为OpenAI资深员工,2016年加入,负责GPU内核优化,参与写作51篇机器学习论文,总引用超过80000次[16][17] 技术重要性 - Bob内核每天在数十万张GPU上执行万亿次,对精度要求极高,若出bug会导致回滚checkpoint重训,浪费大量算力资源[3][4] - Scott Gray在2017年作为一作发布《Block-sparse GPU kernels》论文,针对块稀疏权重设计高性能GPU内核,相比传统方案在特定稀疏度下可提速数倍[19][21] - 此类高性能CUDA内核技术是AI公司的核心基础工程,对模型训练效率有关键影响[14] 行业人才竞争 - Meta创始人扎克伯格已获悉Bob的相关消息,并将“Bob到底是谁”列为招聘会议Top 1事项,显示出对顶尖技术人才的强烈兴趣[10][12] - 硅谷AI公司对人才的争夺激烈,核心技术人员被视为公司机密,行业存在“露头就秒”的抢人现象[26][27] - OpenAI此前已有赵晟佳、Lucas Beyer、Alexander Kolesnikov等核心研究员被Meta挖走,人才竞争态势严峻[29]
斯坦福意外用AI生成超强CUDA内核,性能比人类专家优化得还要好!翻倍碾压原生PyTorch,华人主创
量子位· 2025-05-31 03:34
AI生成内核性能超越人工优化 - 斯坦福研究发现AI意外生成的内核性能超越人类专家优化版本,在NVIDIA L40S GPU测试中最高提升400% [1][2] - 测试阶段生成的合成数据可直接产生高性能内核,无需专门训练生成模型 [4][40] - 具体性能提升:层归一化达PyTorch的484.4%,Conv2D+ReLU+MaxPool组合操作达PyTorch参考实现的290.1% [6] 创新优化方法 - 采用语言推理步骤增强搜索多样性,通过"思考"产生优化思路而非逐步修改 [9][10] - 使用多分支探索模式,每个想法衍生多个实现并选择性能最优者作为下一轮种子 [15][16] - 优化策略包括内存访问优化、异步操作、数据类型优化等6大类技术 [24] 技术实现细节 - 内核用纯CUDA-C编写,无需CUTLASS和Triton等库 [13] - 通过自然语言生成优化思想再转化为代码变体,避免陷入局部最优 [14] - 使用OpenAI o3和Gemini 2.5 Pro在KernelBench 1级任务测试,最佳结果多出现在第4-5轮 [18][19] 研究背景与团队 - 华人主创团队包括斯坦福博士生Anne Ouyang(前英伟达cuDNN团队)、助理教授Azalia Mirhoseini(前DeepMind/Google Brain)和Percy Liang教授 [29][30][32][35] - 研究初衷为生成训练数据,意外发现测试数据可直接产生优质内核 [39][40][41] - 搜索资源消耗仅300万token输入和400万token输出 [49] 行业影响与展望 - 与DeepMind AlphaEvolve等研究共同显示大模型能力达到新层级 [21][45] - 显示大规模再训练非必需,智能搜索策略可解决复杂问题 [44][45] - 当前局限:FP16 Matmul性能仅达torch.matmul的52%,Flash Attention仅9% [46] - Cognition公司已开源强化学习编写CUDA内核的Kevin-32B模型 [51][52]