Workflow
Groq LPU单元
icon
搜索文档
英伟达封死了ASIC的后路?
半导体行业观察· 2025-12-29 01:53
英伟达与Groq的交易性质与战略意图 - 英伟达与Groq达成了一项“非独家许可协议”,而非全面收购,旨在规避反垄断监管审查[18] - 该交易涉及约200亿美元,用于获取Groq的知识产权和关键人才,是一种典型的“反向收购”策略[19][21] - 交易使英伟达能够将Groq的低延迟处理器技术集成到其AI工厂架构中,扩展其推理和实时工作负载服务能力[18] Groq LPU技术的核心优势 - LPU是Groq针对推理工作负载的解决方案,其核心优势在于确定性执行和片上SRAM作为主要权重存储[10] - Groq芯片配备230MB片上SRAM,提供高达80TB/s的片上内存带宽,显著降低延迟并提升吞吐量[10][11] - 使用SRAM相比HBM能显著降低每比特能耗,尤其在解码这类内存密集型工作负载中至关重要[14] - LPU通过编译时调度实现确定性周期,消除内核间时间差异,确保流水线完美利用,实现高吞吐量[14] 英伟达整合LPU的技术路径与潜在方案 - 专家AGF认为,英伟达可能通过台积电的混合键合技术,将LPU单元堆叠在下一代Feynman GPU计算芯片上[1][3] - 预计LPU模块将于2028年首次出现在Feynman芯片上,该芯片预计采用台积电A16工艺[5] - 采用分离的SRAM芯片并堆叠在主计算芯片上,可以解决SRAM在先进工艺节点上缩放停滞和成本高昂的问题[5][6] - 另一种集成方案是将LPU作为机架级推理系统的一部分,与GPU协同工作,由GPU处理预填充/长上下文,LPU专注于解码[16] 行业背景:推理需求崛起与竞争格局 - 人工智能行业计算需求正从训练转向推理,推理是超大规模数据中心的主要盈利点[9] - 推理,特别是解码阶段,需要确定性和低延迟,这与训练更看重吞吐量的需求不同[9][10] - 谷歌等公司已推出专注于推理的ASIC芯片,被视为英伟达的替代品,加剧了推理市场的竞争[9] 英伟达Feynman芯片的潜在架构与影响 - Feynman芯片预计采用台积电A16工艺,配备背面供电和全GAA结构[5] - 通过混合键合技术堆叠SRAM/LPU芯片,可以在保留HBM用于大容量存储的同时,修复低延迟解码的模型浮点利用率[5][6] - 这种集成方案旨在为Feynman芯片在有利工作负载下带来巨大的推理性能提升[5] - 该技术路径若成功,可能使其他厂商的专用集成电路在推理市场面临巨大挑战[2][6]