LPU

搜索文档
LPU推理引擎获资金认可! 正面硬刚英伟达的Groq估值猛增 一年内几乎翻三倍
智通财经网· 2025-09-18 03:49
聚焦于AI芯片的初创公司Groq在当地时间周三证实,该初创公司经历新融资后估值大约69亿美元,在 新一轮融资中筹集了7.5亿美元。该公司乃"AI芯片霸主"英伟达(NVDA.US)的最大竞争对手之一,论竞 争对手们AI芯片领域的市场规模,可能仅次于美国芯片巨头博通与AMD。 这一最新的融资数据可谓高于7月融资传闻流出时的数字。当时有不少媒体报道称,本轮融资约为6亿美 元,估值接近60亿美元。 PitchBook的预测数据显示,Groq今年迄今已累计融资超过30亿美元,融资规模堪比Anthropic等AI超级 独角兽。 LPU从技术路线角度来看,是为推理场景定制的 AI ASIC,而非通用GPU,该公司将系统形态 GroqCard/GroqNode/GroqRack,明确归类为定制推理ASIC。 Groq是何方神圣? Groq 之所以在全球资本市场炙手可热,主要因为其致力于打破份额高达90%的AI芯片超级霸主英伟达 对科技行业AI算力基础设施的强势控制。 Groq所开发的芯片并非通常为AI训练/推理系统提供动力的AI GPU。相反,Groq将其称为 LPU(language processing units,语言 ...
GPU的替代者,LPU是什么?
半导体行业观察· 2025-08-03 03:17
核心观点 - Groq的LPU(语言处理单元)架构专为AI推理设计,消除了传统GPU在推理速度和精度之间的权衡,能够在保持高质量的同时实现极低延迟 [2] - 通过TruePoint数值技术、SRAM主存储器、静态调度等创新,LPU在运行1万亿参数模型时展现出显著性能优势 [3][4][6][7][9] - 该架构支持张量并行和流水线并行,使Moonshot AI的Kimi K2等大模型能实时生成令牌 [10] - 在MMLU等基准测试中,Groq解决方案在保持高准确率的同时,速度比BF16提升2-4倍 [3][15] 技术架构创新 数值处理 - TruePoint技术允许在无损精度的区域降低计算精度,以FP32执行矩阵运算,同时选择性量化输出,速度比BF16快2-4倍且无准确率损失 [3] - 采用100位中间累积存储,确保无论输入位宽如何都能实现无损累积 [3] 内存设计 - 使用数百兆片上SRAM作为主权重存储器(非缓存),相比DRAM/HBM将访问延迟从数百纳秒降至最低 [6] - 支持混合精度存储:FP32用于注意逻辑,块浮点用于MoE权重,FP8用于容错层激活 [5] 执行模型 - 编译器预先计算整个执行图至时钟周期级别,消除动态调度带来的延迟 [7][9] - 静态调度实现无尾延迟的张量并行和流水线并行,支持第N+1层在N层计算时即开始处理 [9] 性能优化 并行处理 - 张量并行将单层拆分到多个LPU芯片,使单次前向传递更快完成,适合实时应用 [10] - 推测解码技术通过草稿模型预测令牌,LPU架构能高效验证批次,支持每个流水线阶段处理2-4个token [11] 芯片互连 - RealScale互连协议消除时钟漂移,使数百个LPU对齐为单核心,编译器可精确预测数据到达时间 [12] 实际应用表现 - 在OpenBench框架测试中,运行Kimi-K2-Instruct模型时保持高准确率得分 [15] - 第一代14nm LPU已实现优异性能,近期使Kimi K2在72小时内性能提升40倍 [16]
芯片新贵,集体转向
半导体芯闻· 2025-05-12 10:08
行业趋势 - AI芯片行业正从大规模训练市场转向更现实的推理市场,Nvidia在训练芯片市场占据主导地位,而其他公司如Graphcore、英特尔Gaudi、SambaNova等转向推理市场 [1] - 训练芯片市场门槛高,需要重资本、重算力和成熟的软件生态,新晋企业难以生存,推理芯片成为更易规模化落地的选择 [1] - 推理市场对内存和网络的要求较低,适合初创公司切入,而Nvidia在训练市场的优势包括HBM内存和NVLink等网络技术 [21][22] Graphcore - Graphcore曾专注于训练芯片,其IPU处理器采用并行处理架构,适合处理稀疏数据,在化学材料和医疗领域表现突出 [2][4] - 2020年Graphcore估值达28亿美元,但其IPU系统在大型训练项目中难以挑战Nvidia,2021年微软终止合作后公司开始衰落 [4][5] - 2024年软银收购Graphcore后转向推理市场,优化Poplar SDK,推出轻量级推理方案,聚焦金融、医疗和政府场景 [6] 英特尔Gaudi - 英特尔2019年以20亿美元收购Habana Labs,Gaudi系列主打训练和推理,Gaudi2对比Nvidia A100吞吐量性能提高2倍 [7][9] - 英特尔内部存在Habana与GPU部门的竞争,官僚效率低下影响决策,Gaudi训练平台市场采用率低迷 [9][10] - 2023年Gaudi转向训练+推理并重,Gaudi3强调推理性能和成本优势,每美元推理吞吐量高于GPU近30%,但未能达到营收预期 [10][11] Groq - Groq创始人曾参与Google TPU设计,其LPU架构采用确定性设计,主打低延迟和高吞吐率,适合推理任务 [12][14] - 早期尝试训练市场失败后转向推理即服务,2024年展示Llama 2-70B模型每秒生成300+ Token,吸引金融、军事等延迟敏感行业 [15] - GroqCloud平台提供API接口,与LangChain等生态集成,定位为AI推理云服务提供商 [15] SambaNova - SambaNova采用RDU架构,曾重视训练市场,但2022年后转向推理即服务,推出SambaNova Suite企业AI系统 [16][18] - 2024年裁员15%并完全转向推理,聚焦政府、金融和医疗等私有化模型部署需求强烈的领域 [18][19] - 提供多语言文本分析、智能问答等推理服务,商业化路径逐渐清晰 [19] 技术对比 - Nvidia在训练市场的优势包括CUDA生态、HBM内存和NVLink网络技术,初创公司难以竞争 [21][22] - 推理任务内存负担低,无需存储梯度和复杂网络通信,适合初创公司设计专用芯片 [21] - 未来AI芯片竞争将更注重成本、部署和可维护性,推理市场成为战略重点 [23]
芯片新贵,集体转向
半导体行业观察· 2025-05-10 02:53
AI芯片行业趋势 - AI芯片行业正从大规模训练市场转向更具现实落地潜力的推理市场,Nvidia在训练市场占据绝对主导地位,而其他公司如Graphcore、英特尔Gaudi等纷纷转向推理领域 [1] - 训练市场门槛极高,需要重资本、重算力和成熟的软件生态,新晋企业难以与Nvidia竞争,推理市场则更易规模化和商业化 [1][4] - 推理市场的优势在于内存和网络需求较低,适合初创企业切入,而Nvidia在训练市场的优势包括CUDA生态、HBM内存和NVLink技术 [21][22] Graphcore转型 - Graphcore曾专注于训练芯片IPU,其Colosual MK2 GC200 IPU采用台积电7nm制程,性能接近Nvidia A100,2020年估值达28亿美元 [4] - IPU在稀疏数据处理(如分子研究)和医疗领域表现突出,微软曾用于新冠X光片识别,速度比传统芯片快10倍 [5] - 由于训练市场竞争失败,Graphcore被软银收购后转向推理市场,推出轻量级推理方案,聚焦金融、医疗和政府场景 [5][6] 英特尔Gaudi策略调整 - 英特尔2019年以20亿美元收购Habana Labs,Gaudi2采用7nm制程,吞吐量性能比Nvidia A100高2倍 [7] - 内部管理混乱导致Gaudi市场表现不佳,2023年转向"训练+推理并重",Gaudi3强调推理性价比,成本优势达30% [9][10] - 英特尔终止Falcon Shores开发,Gaudi3现面向企业私有化部署,如语义搜索和客服机器人 [10][11] Groq技术定位 - Groq创始人曾参与Google TPU开发,其LPU架构采用确定性设计,专注低延迟推理,适合大模型推理任务 [13] - 2024年展示Llama 2-70B模型推理速度达300 token/秒,吸引金融、军事等延迟敏感领域客户 [15] - Groq转型推理即服务(Inference-as-a-Service),通过GroqCloud平台提供API,与LangChain等生态集成 [16] SambaNova业务转向 - SambaNova的RDU芯片曾主打训练优势,但2022年后转向推理即服务,推出企业AI系统SambaNova Suite [17][19] - 聚焦金融、政府等私有化部署需求,提供合规化推理解决方案,与拉美金融机构和欧洲能源公司合作 [20][21] - 2024年裁员15%,完全放弃训练市场,专注推理商业化 [19] 技术对比与市场逻辑 - 训练芯片需复杂内存层级(HBM/DDR)和全互联网络,Nvidia凭借CUDA生态和硬件优化占据绝对优势 [21][22] - 推理芯片门槛较低,初创企业可通过垂直场景(如医疗、金融)或技术差异化(如Groq的低延迟)竞争 [23] - 行业进入"真实世界"阶段,竞争焦点从算力转向成本、部署和维护便利性 [23]
东吴证券晨会纪要-2025-03-13
东吴证券· 2025-03-13 00:50
好的,我将为您分析这份东吴证券晨会纪要,总结关键投资要点。报告覆盖了宏观策略、固收金工、电子、医药生物等多个领域。 报告行业投资评级 - 电子行业:推荐寒武纪、海光信息,建议关注中兴通讯、翱捷科技、芯原股份 [26] - 医药生物行业:建议关注诚益通、三博脑科、翔宇医疗、塞力医疗、岩山科技、爱朋医疗、麦澜德及非上市公司脑虎科技、阶梯医疗、博瑞康、BrainCo [27] - 个股评级:宝丰能源"买入" [9]、安徽合力"买入" [8]、普洛药业"买入" [10]、蓝思科技"买入" [12]、永兴股份首次覆盖"买入" [12]、拓斯达"增持" [30] 报告核心观点 - 宏观策略:美国经济数据喜忧参半,非农就业略不及预期但走弱幅度可控,缓解了对美国经济过度悲观预期。特朗普"紧财政"政策与欧元区"财政宽松"转向形成分化,对美股市场情绪造成冲击,美元、美股大跌 [1][14] - 固收金工:10年期国债收益率合理点位在2.0-2.2%,当前接近1.9%的10年期国债已具备配置价值。30年期国债收益率合理区间为2.2-2.7% [3][23] - 电子行业:ASIC在低精度领域具有功耗和能效优势,但在算力性能、显存带宽和容量上与GPGPU仍有差距。英伟达NVLink互连技术领先,大厂自研AI芯片需4.5-7万卡出货量可覆盖前期投入 [4][6] - 医药生物:国家医保局为脑机接口医疗服务价格单独立项,设立"侵入式脑机接口置入费"等项目,为脑机接口技术临床应用铺平收费路径 [7] - 个股观点:宝丰能源内蒙古项目第一条产线投产,烯烃产能将达520万吨/年;安徽合力设立泰国工厂规划年产叉车10000台;蓝思科技在机器人和AR领域取得进展,供应智元机器人核心零部件 [8][31][34] 宏观策略 - 海外周报:美国2月非农就业+15.1万(预期+16万),失业率升至4.1%。美元指数大跌3.51%至103.84,标普500和纳斯达克指数分别下跌3.1%和3.45% [14] - 宏观量化:2月国内挖机销量同比增长99.4%,指向项目开工进程提速。预计2月新增贷款1.0-1.2万亿,同比少增2500-4500亿元 [2][19] - 德国国债利率飙升30bps,创1990年以来最大单日涨幅,因德国提出激进扩张的财政政策 [2][20] 固收金工 - 10年期国债收益率从2月6日1.60%上行至3月11日1.89%,1年期国债收益率从1.21%上行至1.58% [23] - 央行在2月11日-3月12日期间通过逆回购和MLF回收流动性9861亿元 [23] - 10Y-1Y国债利差为31bp,央行合意的期限利差中枢约为60bp [23] 电子行业 - GPGPU在算力性能、显存带宽和容量上优于ASIC,英伟达NVLink互连能力领先 [4][26] - 大厂自研AI芯片的前期投入可通过4.5-7万卡出货量覆盖,训练端单一集群需求量已超10万卡 [6][26] - 英伟达FY2024数据中心40%收入来自推理业务,AI推理需求还有更大渗透空间 [6] - 博通发布业界首款5nm CMOS工艺的400GbE网卡芯片Thor 2;Marvell通过HBM重构与CPO集成突破AI芯片能效与带宽瓶颈 [6] 医药生物行业 - 全球首批第4例脑脊接口手术成功实施,通过脑与脊髓间搭建"神经桥"让瘫痪者重新行走 [7][27] - 国家医保局设立"侵入式脑机接口置入费"(4500-6000元/次)、"侵入式脑机接口取出费"(2000-3000元/次)和"非侵入式脑机接口适配费"(500-1000元/小时)等项目 [7] 推荐个股 - 宝丰能源:2024年营收329.8亿元(同比+13%),归母净利润63.4亿元(同比+12%)。内蒙古项目第一条100万吨/年产线已于2024年11月投产,第二条产线于2025年1月投产,第三条预计2025年3月底投产 [31] - 安徽合力:拟投资设立泰国工厂,规划年产叉车10000台,年产锂电池组10000套。公司出资3.2亿元持有75%股权 [32] - 普洛药业:2024年营收120.22亿元(同比+4.77%),归母净利润10.31亿元(同比-2.29%)。CDMO板块营收18.84亿元(-6.05%),报价项目1601个(+77%) [10][33] - 蓝思科技:为智元机器人核心供应商,2025年1月交付灵犀X1,供应关节模组/DCU/夹爪等核心零部件。与Rokid达成深度合作,提供AR眼镜整机组装和全产业链整合 [34][36] - 永兴股份:2024年归母净利润7.72亿元(同比+5.1%),垃圾焚烧单吨收入417元/吨居同业第一,单吨毛利190元/吨优于同业平均136元/吨 [37] - 拓斯达:2024Q1-Q3营收22.35亿元(同比-31.0%),归母净利润902万元(同比-93.0%)。加入华为全球具身智能产业创新中心,成为16家优选合作伙伴之一 [28][30]