纯GPU在自动驾驶中的应用与局限性 - 纯GPU可实现低级别自动驾驶,但存在延迟、功耗和效率等明显短板,难以满足L3及以上级别需求 [4][6] - 早期测试案例显示,基于英伟达GTX1080GPU的方案在60公里/小时车速下,80毫秒延迟导致车辆前进1.33米,存在安全隐患 [5] - 特斯拉早期采用NVIDIA PX2 GPU,后转向自研NPU(FSD芯片)以优化能效 [6] GPU、NPU、TPU的架构与原理对比 - GPU设计初衷为图形渲染,以英伟达GTX1080为例,含2560个流处理器,但执行神经网络计算时30%-40%硬件资源闲置 [8][9] - NPU专为神经网络设计,如华为昇腾310B含2048个MAC单元,数据流转路径比GPU减少60%以上 [10][14] - TPU采用脉动阵列架构(如TPU v2的512x512阵列),数据复用率比GPU高3倍以上,专为TensorFlow优化 [12][28] 自动驾驶芯片的混合架构设计 - 英伟达Thor芯片同时集成GPU和NPU,NPU处理YOLOv8模型单帧图像耗时5毫秒,GPU处理100万点云数据耗时3毫秒,协同效率提升40% [32][33] - 混合架构降低硬件成本25%,减少50%电路板空间占用,并保留GPU以兼容传统算法(如SLAM),节省18个月适配时间 [33][34] 能效与成本数据对比 - NPU能效显著优于GPU:华为昇腾310B能效比2.75TOPS/W,是英伟达Jetson AGX Xavier(1.07TOPS/W)的2.5倍 [36] - 特斯拉FSD芯片NPU部分能效比5.76TOPS/W,相同算力下功耗仅为纯GPU方案的1/4.8 [36] - 量产10万台时,NPU单位研发成本30美元/台,GPU为80美元/台;144TOPS算力下,NPU方案硬件成本仅为纯GPU方案的12.5% [37] 技术发展趋势 - 纯GPU方案在L4级自动驾驶中面临瓶颈:处理5-10GB/秒数据需多颗GPU协同,功耗达320W,使电动车续航减少30% [6] - 未来主流方案为NPU+GPU混合架构,兼顾神经网络处理效率与通用计算兼容性,综合优化延迟、能耗及成本 [40]
为什么Thor芯片要保留GPU,又有NPU?