Workflow
神经网络计算
icon
搜索文档
NPU,大有可为
半导体芯闻· 2025-12-15 10:17
文章核心观点 - PC OEM和芯片供应商正指望消费者对人工智能(AI)的兴趣来推动PC出货量增长,这种增长在几年来从未见过 [3] - 人工智能PC和集成的NPU仍处于早期阶段,但MPR预计NPU将在AI PC中承担大部分AI工作负载 [3] - 硬件加速器的兴起是不可否认的,NPU已经与CPU和GPU一起巩固了其作为现代计算基础设施必不可少的组成部分的地位 [15] - 随着NPU部署越来越广泛,MPR预计PC上运行的大多数AI相关工作负载将转移到NPU,最终GPU上只剩下很少一部分 [19] NPU的兴起与定义 - 神经处理单元(NPU)是一种专门为加速人工智能任务而设计的新型专用计算硬件 [3] - 与其更成熟的前身GPU一样,NPU提供了一个专门优化的专用硬件平台,可以高效执行某些类型的计算 [3] - NPU拥有专为AI工作负载量身定制的专用体系结构,具有专用的乘累加(MAC)单元,通常将MAC单元排列成MAC阵列以匹配大型神经网络的矩阵结构 [6] - 例如,Intel Lunar Lake处理器中的集成NPU具有12,000个MAC单元 [6] - 大多数NPU还具有其他AI专用硬件,例如小数据类型(如:FP8和INT4)的加速以及ReLU、sigmoid和tanh等激活函数 [6] NPU的发展历程 - NVIDIA于2017年推出了第一款独立的NPU,即V100,引入了专用Tensor Core [5] - Apple在2017年推出了第一款集成式NPU,即A11 Bionic SoC中的神经引擎 [5] - 直到2020年Apple的M1,集成式NPU才出现在PC中 [5] - 在智能手机领域,Apple、高通、华为等SoC提供商已将NPU集成到其产品中好几个代次 [8] - 2023年,AMD和Intel分别推出了首款集成NPU的x86 PC处理器Phoenix和Meteor Lake [8] AI PC的竞争与标准 - 为了支持人工智能PC,处理器供应商一直在其异构PC处理器中添加集成的NPU [3] - Intel、AMD和高通都推出了符合微软要求的产品,即集成的NPU提供每秒至少40万亿次运算(TOPS),以支持Copilot+ AI助手 [3] - 微软设定了集成NPU的最低要求,至少要有40TOPS,以确保Copilot+品牌的PC能够高效处理AI任务 [9] - 高通率先推出了骁龙 X Elite和骁龙X Plus处理器,NPU能够达到45TOPS [9] - AMD和Intel紧随其后,分别推出了Strix Point和Lunar Lake处理器 [9] - 整个PC生态系统都高度依赖AI PC的成功;Copilot+ 品牌被认为对于假期前推出的PC的成功至关重要 [9] NPU的技术演变 - 当今的许多NPU本质上都是数字信号处理器(DSP)的进化演变版本,DSP具有专门用于处理计算密集型任务的体系结构 [10] - NPU通常具有一个或多个小型DSP来处理向量运算,而矩阵运算则被卸载到更大的MAC阵列上 [11] - 集成到AMD Strix Point处理器中的XDNA 2 NPU代表了赛灵思XDNA AI引擎的演变,后者本身是从赛灵思DSP演变而来的 [14] - 高通基于Arm平台的Hexagon NPU直接从该公司的Hexagon DSP进行了更直接的演变 [14] - Intel的NPU 4首次集成到Lunar Lake处理器中,其演变源于2016年从Movidius收购的技术,从支持神经网络硬件加速的第一代Movidius IP发展而来 [14] NPU在AI工作负载中的角色与展望 - 目前,机器学习工作负载以及深度学习活动正在以大致相等的比例利用NPU、GPU和CPU,但这种相对平衡将迅速改变 [3] - NPU不会完全取代所有人工智能工作负载的CPU和GPU,LLM训练和推理需要结合CPU密集型任务和NPU密集型任务 [15] - 优化LLM的性能需要仔细考虑load阶段(依赖CPU)、预填充阶段(依赖NPU)和token阶段(依赖NPU和DRAM带宽) [16] - 需要一种利用每个主要处理组件优势的协同方法:NPU针对矩阵乘法,GPU处理并行任务,CPU处理顺序任务 [16] - Intel内部研究表明,独立软件供应商(ISV)计划在2025年将约30%的AI工作负载编写为在NPU上执行,高于今年的25% [18] - 为CPU编写的AI工作负载百分比预计将从今年的约35%下降到明年的约30%,而为GPU编写的AI工作负载百分比预计将在两年内保持在约40%的水平 [18] - AMD预计到今年年底,将有超过150家软件供应商的产品可以利用集成到其Ryzen AI产品中的NPU [18] - 随着NPU的部署越来越广泛,越来越多的软件被编写来利用它们,平衡将发生倾斜,更多的AI工作负载将转移到最优化的计算元素上 [19]