maxDNN

搜索文档
CUDA内核之神、全球最强GPU程序员?OpenAI的这位幕后大神是谁
机器之心· 2025-09-30 23:49
文章核心观点 - 文章聚焦于OpenAI资深工程师Scott Gray,强调其在AI模型底层性能优化方面的关键作用,其编写的CUDA Kernel支撑了公司每日数万亿次的计算量 [1][2][3] - 文章指出,编写高性能模型训练CUDA Kernel需要同时精通并行计算、GPU硬件架构和深度学习算法,此类顶尖人才极为稀缺 [7] - Scott Gray的职业轨迹展示了通过深入硬件底层优化,个体工程师也能创造出超越行业巨头(如NVIDIA官方库)的性能,并对AI模型的规模化发展产生决定性影响 [7][21][22] Scott Gray的技术专长与成就 - 核心技术能力在于绕过标准软件抽象层,直接编写底层SASS机器码,以实现对硬件资源的绝对控制和性能突破 [15][16][17][18] - 在Nervana Systems期间,开发了针对NVIDIA Maxwell架构的汇编器maxas,并手写SGEMM内核,在GM204 GPU上实现98%的硬件理论峰值效率,性能比NVIDIA cuBLAS库快4.8% [19][20] - 开发maxDNN卷积库,在AlexNet卷积层上实现93-95%的计算效率,显著高于cuDNN库32%至57%的效率,在Overfeat模型某卷积层效率达96.3%峰值 [21] 在OpenAI的贡献与战略转变 - 加入OpenAI后工作重心从“优化者”转变为“使能者”,专注于为更高效的稀疏模型架构开发底层工具,是将Scaling Laws理论转化为工程现实的关键人物 [22] - 作为核心技术人员,其名字出现在GPT-3、GPT-4、Codex和DALL-E等里程碑式论文中,编写的高性能GPU内核支撑了这些模型万亿次级别的训练和推理 [22] - 为解决稠密模型规模化难题,共同开发了创新的块稀疏GPU内核,其运行速度比处理稠密矩阵的cuBLAS或通用稀疏矩阵的cuSPARSE快几个数量级,使参数量远超以往的模型成为可能 [24][25][26] - OpenAI开源了这些高性能块稀疏内核,旨在推动整个社区在模型和算法设计上的创新 [27][29]