Workflow
跨平台评测
icon
搜索文档
大模型能否为不同硬件平台生成高性能内核?南大、浙大提出跨平台内核生成评测框架MultiKernelBench
机器之心· 2025-08-25 02:48
深度学习内核生成技术现状 - 深度学习模型的计算依赖底层计算内核执行矩阵乘法、卷积等核心算子运算 这些内核通常需开发者使用CUDA、AscendC等硬件专用语言手工编写 要求极高的性能调优技巧和硬件架构理解[2] - 大语言模型在代码生成领域的突破使"自动生成高性能深度学习内核"成为研究热点 KernelBench、TritonBench等评测基准聚焦评估LLM在NVIDIA GPU内核生成表现[2] - 研究表明现有LLM已具备一定GPU内核生成能力 例如英伟达工程师基于DeepSeek-R1的工作流程在简单CUDA内核生成任务中达到100%通过率[2] 多平台内核生成挑战与解决方案 - AI加速器架构日趋多样(NVIDIA GPU、华为昇腾NPU、Google TPU、Intel GPU等) 底层内核语言差异显著 现有评测基准存在平台覆盖单一、评估维度粗糙、可扩展性不足等局限[3] - 南京大学与浙江大学联合推出开源评测框架MultiKernelBench 打破平台、维度与扩展性限制 为LLM驱动的高性能内核生成提供新测评标准[3] - MultiKernelBench设计充分考虑算子多后端可扩展性 Intel工程师基于该框架高效实现了Intel GPU适配 仅需少量代码修改即可支持SYCL后端[7][8] MultiKernelBench框架架构 - 采用模块化评测体系包含四大核心特性:跨硬件平台支持、细粒度任务体系、端到端自动化评测、类别感知One-shot提示策略[9][11][14][16] - 首批覆盖三大主流架构:NVIDIA GPU(CUDA/Triton)、华为昇腾NPU(AscendC)、Google TPU(Pallas) 通过统一Backend接口与装饰器机制实现快速接入新平台[9][13] - 任务体系覆盖14类核心深度学习算子(卷积、归一化、优化器等) 继承250个经典任务并新增35个关键算子 总计285个任务[11][12] - 构建标准化流程:内核生成→编译→硬件执行→性能分析 确保在真实硬件环境完成全流程验证[14] - 针对不同算子类别动态选取典型样例作为上下文提示 显著提升生成代码语义相关性与功能正确性 尤其在AscendC、Pallas等训练语料稀缺平台效果显著[16] 多模型性能评估结果 - 评估7个主流大模型(GPT-4o、Claude、DeepSeek-V3、Qwen等) 参数规模涵盖32B~681B 评估指标包括编译通过率(Comp@1)、功能正确率(Pass@1)和性能优化率(SpeedUp@1)[19][21] - Claude-Sonnet-4在整体评测中表现最佳:CUDA平台Pass@1达47% SpeedUp@1达20.4%;Pallas平台Pass@1达8.4% SpeedUp@1达7.7%;总通过数164个[20] - DeepSeek-R1在CUDA平台表现突出:Pass@1达52.6% SpeedUp@1达26.0%[20] - 平台对比显示:CUDA平台通过率显著高于Pallas与AscendC 反映LLM对CUDA更具适应性;类别感知式Prompting明显优于通用模板 尤其在低资源平台显著提升生成效果[27] 技术局限与未来方向 - 当前最先进LLM在多平台高性能内核生成任务中存在明显短板:非CUDA平台成功率显著下降 生成代码性能普遍落后于手工优化版本[23] - 未来重点探索方向:开发反馈式、文档增强等新型提示方法提升低资源平台生成质量;实现多平台版本同步生成与优化思路共享;与社区合作接入更多新平台覆盖异构计算全景[24][27] - 框架已全面开源 包含全量数据集、框架代码与评测流程 邀请研究者与工程师贡献平台支持共同推动多平台高性能内核自动生成发展[24]