为什么Thor芯片要保留GPU，又有NPU？

纯GPU在自动驾驶中的应用与局限性 - 纯GPU可实现低级别自动驾驶，但存在延迟、功耗和效率等明显短板，难以满足L3及以上级别需求 [4][6] - 早期测试案例显示，基于英伟达GTX1080GPU的方案在60公里/小时车速下，80毫秒延迟导致车辆前进1.33米，存在安全隐患 [5] - 特斯拉早期采用NVIDIA PX2 GPU，后转向自研NPU（FSD芯片）以优化能效 [6] GPU、NPU、TPU的架构与原理对比 - GPU设计初衷为图形渲染，以英伟达GTX1080为例，含2560个流处理器，但执行神经网络计算时30%-40%硬件资源闲置 [8][9] - NPU专为神经网络设计，如华为昇腾310B含2048个MAC单元，数据流转路径比GPU减少60%以上 [10][14] - TPU采用脉动阵列架构（如TPU v2的512x512阵列），数据复用率比GPU高3倍以上，专为TensorFlow优化 [12][28] 自动驾驶芯片的混合架构设计 - 英伟达Thor芯片同时集成GPU和NPU，NPU处理YOLOv8模型单帧图像耗时5毫秒，GPU处理100万点云数据耗时3毫秒，协同效率提升40% [32][33] - 混合架构降低硬件成本25%，减少50%电路板空间占用，并保留GPU以兼容传统算法（如SLAM），节省18个月适配时间 [33][34] 能效与成本数据对比 - NPU能效显著优于GPU：华为昇腾310B能效比2.75TOPS/W，是英伟达Jetson AGX Xavier（1.07TOPS/W）的2.5倍 [36] - 特斯拉FSD芯片NPU部分能效比5.76TOPS/W，相同算力下功耗仅为纯GPU方案的1/4.8 [36] - 量产10万台时，NPU单位研发成本30美元/台，GPU为80美元/台；144TOPS算力下，NPU方案硬件成本仅为纯GPU方案的12.5% [37] 技术发展趋势 - 纯GPU方案在L4级自动驾驶中面临瓶颈：处理5-10GB/秒数据需多颗GPU协同，功耗达320W，使电动车续航减少30% [6] - 未来主流方案为NPU+GPU混合架构，兼顾神经网络处理效率与通用计算兼容性，综合优化延迟、能耗及成本 [40]