Workflow
OpenBench
icon
搜索文档
GPU的替代者,LPU是什么?
半导体行业观察· 2025-08-03 03:17
核心观点 - Groq的LPU(语言处理单元)架构专为AI推理设计,消除了传统GPU在推理速度和精度之间的权衡,能够在保持高质量的同时实现极低延迟 [2] - 通过TruePoint数值技术、SRAM主存储器、静态调度等创新,LPU在运行1万亿参数模型时展现出显著性能优势 [3][4][6][7][9] - 该架构支持张量并行和流水线并行,使Moonshot AI的Kimi K2等大模型能实时生成令牌 [10] - 在MMLU等基准测试中,Groq解决方案在保持高准确率的同时,速度比BF16提升2-4倍 [3][15] 技术架构创新 数值处理 - TruePoint技术允许在无损精度的区域降低计算精度,以FP32执行矩阵运算,同时选择性量化输出,速度比BF16快2-4倍且无准确率损失 [3] - 采用100位中间累积存储,确保无论输入位宽如何都能实现无损累积 [3] 内存设计 - 使用数百兆片上SRAM作为主权重存储器(非缓存),相比DRAM/HBM将访问延迟从数百纳秒降至最低 [6] - 支持混合精度存储:FP32用于注意逻辑,块浮点用于MoE权重,FP8用于容错层激活 [5] 执行模型 - 编译器预先计算整个执行图至时钟周期级别,消除动态调度带来的延迟 [7][9] - 静态调度实现无尾延迟的张量并行和流水线并行,支持第N+1层在N层计算时即开始处理 [9] 性能优化 并行处理 - 张量并行将单层拆分到多个LPU芯片,使单次前向传递更快完成,适合实时应用 [10] - 推测解码技术通过草稿模型预测令牌,LPU架构能高效验证批次,支持每个流水线阶段处理2-4个token [11] 芯片互连 - RealScale互连协议消除时钟漂移,使数百个LPU对齐为单核心,编译器可精确预测数据到达时间 [12] 实际应用表现 - 在OpenBench框架测试中,运行Kimi-K2-Instruct模型时保持高准确率得分 [15] - 第一代14nm LPU已实现优异性能,近期使Kimi K2在72小时内性能提升40倍 [16]