AI推理

搜索文档
过去四周,AI推理爆了,GPU在燃烧,英伟达依旧供不应求
硬AI· 2025-04-29 00:18
行业需求与市场动态 - 大型语言模型对推理芯片的需求激增,导致英伟达GPU供不应求,需求遍及所有地区 [3][4] - token生成量自年初以来增长5倍以上,给生态系统带来巨大压力,推动对处理工作负载的投资激增 [4] - AI公司用户数量呈爆炸式增长,例如Open Router等API公司数据显示,GPU资源争夺激烈,甚至出现"最后一块GB200"在2025年仅剩一块的状况 [4] 英伟达的供应与业绩 - 英伟达Blackwell芯片(尤其是GB200/300型号)供应受限,短期内无法满足爆炸式需求 [6] - Hopper GPU需求虽改善,但云客户5-6年折旧周期可能导致投资回报率不理想 [6] - 美元上行、供应紧张和出口限制叠加,引发市场对英伟达短期盈利的担忧 [6] 摩根士丹利的观点与调整 - 摩根士丹利将英伟达目标价从162美元轻微下调至160美元,主要反映同行组整体估值下降,而非公司基本面变化 [3][6] - 下调目标价体现对英伟达短期业绩的谨慎态度,但长期增长潜力依然强劲 [3][8] - 截至发稿,英伟达股价为111美元,较大摩目标价高45%左右 [6] 推理需求的关键性 - 摩根士丹利认为推理需求是关键,由使用模型并产生收入的部分驱动,证明推理模型的扩展是真实存在的 [4] - 推理需求与仅依赖风险投资的训练需求有本质区别 [4]
过去四周,AI推理爆了,GPU在燃烧,英伟达依旧供不应求
华尔街见闻· 2025-04-27 10:38
投资者情绪与需求变化 - 过去四周投资者情绪因宏观经济和供应链风险恶化 但英伟达GPU核心需求因大型语言模型对推理芯片需求飙升且遍及所有地区 [1] - token生成量自年初以来增长5倍以上 给生态系统带来巨大压力并推动处理工作负载的投资激增 [1] - 多家AI公司报告用户数量爆炸式增长 例如Open Router等API公司因推理软件需求被迫争抢GPU资源 [1] 英伟达芯片供需状况 - 英伟达Blackwell芯片供应受限 尤其是GB200/300型号无法满足爆炸式需求 [2] - Hopper GPU需求有所改善 但云客户5-6年折旧周期导致投资回报率不理想 [2] - 美元上行、供应紧张和出口限制叠加 引发市场对英伟达短期盈利担忧 [2] 摩根士丹利对英伟达的评估 - 摩根士丹利将英伟达目标价从162美元下调至160美元 主要反映同行组整体估值下降而非公司基本面变化 [2] - 截止发稿英伟达股价为111美元 较大摩目标价高45%左右 [2] - 摩根士丹利认为供应限制和毛利率压力影响市场情绪 但对长期增长潜力保持信心 [4] 财务预测调整 - 摩根士丹利将2026财年收入预测上调10.7% 每股收益上调11.9% 并认为这些数字可能仍非常保守 [5]
“AI消化期论”可笑!大摩上调英伟达(NVDA.US)2026 年业绩预期
智通财经网· 2025-04-25 13:38
智通财经APP获悉,摩根士丹利上调了对英伟达(NVDA.US)的 2026 年业绩预期,称人工智能处于消化 阶段的想法"很可笑"。 分析师约瑟夫·摩尔在给客户的报告中写道:"过去四周,尽管投资者情绪因宏观和供应链风险而恶化, 但在全球范围内,与大多数大语言模型相关的推理芯片短缺,GPU的核心需求却大幅上升。""尽管华尔 街对一系列非常现实的担忧感到焦虑,但硅谷的关注点已转向一个截然不同的挑战——自年初以来,生 成的token数量增长了5倍以上,这极大地挤压了生态系统,并推动了对处理这些工作负载的投资激 增。" 由于近期H20的限制,摩尔维持其对2026财年的预期不变,但将2027财年(2026自然年)的营收预期从之 前的2309亿美元上调至2555亿美元。基于数据中心业务的持续增长,他还将调整后的每股收益预期从之 前的5.37美元上调至6.01美元。 摩尔进一步指出,基于API公司Open Router以及"多种"专有渠道的检查,AI推理需求增长的趋势已变得 明显。他补充说,尽管情绪受到关税、贸易战和其他问题的影响,但这些并未体现在硬数据中。 此外,科技界近期有多条推文称AI需求出现"急剧加速",包括Open ...
内存压缩技术新突破,提高AI推理效率!
半导体芯闻· 2025-04-25 10:19
核心观点 - ZeroPoint Technologies与Rebellions合作开发下一代内存优化AI加速器 旨在通过硬件内存压缩技术显著提升AI推理性能并降低成本 计划2026年推出新产品 目标实现前所未有的代币/秒/瓦特性能水平[2][5] 技术合作与产品规划 - 两家公司基于ZeroPoint的内存压缩、压缩和内存管理技术开发AI加速器 通过增加内存带宽和容量优化基础模型推理工作流程[2] - 新产品计划于2026年发布 声称有望实现突破性代币/秒/瓦特性能水平[2] - 合作聚焦无损模型压缩 在保持准确性的同时减少模型尺寸和能耗[5] 技术原理与性能优势 - ZeroPoint基于硬件的内存优化引擎比软件压缩方法快1000倍 在纳秒级窗口内完成压缩/解压缩、数据聚合及内存管理三项操作[2][5] - 技术以64字节缓存行粒度运行 相比ZSTD等传统技术使用的4-128kB数据块更精细[5] - 可实现内存容量/带宽提升2-4倍 每瓦性能提高50% 总拥有成本大幅降低[5] - 测试显示软件压缩结合内联硬件解压缩已使LLM等应用的可寻址内存、带宽和代币/秒性能提升约50%[5] 市场影响与成本效益 - 100GB HBM的基座模型工作负载可等效150GB HBM运行 带来数十亿美元成本节省[5] - 技术为AI芯片制造商挑战NVIDIA主导地位提供基础 通过功率和成本效率创新参与全球竞争[5] - 内存中超过70%数据为冗余 无损压缩技术可显著提升数据中心效率[5] 行业技术背景 - Marvell和英特尔在HBM领域的进展已提升性能 但硬件加速内存压缩技术可带来进一步改进[5] - 内存优化技术预计从竞争优势发展为高性能推理加速器解决方案必备组件[5]
海光信息(688041):2024年报和2025年一季报点评:业绩持续高增,技术突破驱动国产算力突围
华创证券· 2025-04-23 14:46
报告公司投资评级 - 维持“推荐”评级 [2] 报告的核心观点 - 海光信息作为国内高端处理器核心厂商,有望持续受益于AI推理需求释放,随着深算3号推向市场,公司业绩有望维持高增 [10] 根据相关目录分别进行总结 业绩情况 - 2024年公司实现总营业收入91.62亿元,同比增长52.40%;归母净利润19.31亿元,同比增长52.87% [2] - 2025年一季度公司实现总营业收入24.00亿元,同比增长50.76%;归母净利润5.06亿元,同比增长75.33% [2] - 预计2025 - 2027年公司营业收入为137.4/195.0/263.3亿元;归母净利润为29.0/42.2/57.2亿元 [10] 主要财务指标 |指标|2024A|2025E|2026E|2027E| | ---- | ---- | ---- | ---- | ---- | |营业总收入(百万)|9,162|13,738|19,503|26,327| |同比增速(%)|52.4%|49.9%|42.0%|35.0%| |归母净利润(百万)|1,931|2,902|4,219|5,724| |同比增速(%)|52.9%|50.3%|45.4%|35.7%| |每股盈利(元)|0.83|1.25|1.82|2.46| |市盈率(倍)|183|122|84|62| |市净率(倍)|17.5|15.5|13.4|11.3|[5] 公司基本数据 - 总股本232,433.81万股,已上市流通股88,655.72万股 [7] - 总市值3,333.10亿元,流通市值1,271.32亿元 [7] - 资产负债率18.63%,每股净资产8.53元 [7] - 12个月内最高/最低价159.18/65.35元 [7] 公司优势 - 强劲增长:2024年营收、归母净利润等核心财务指标连续五年稳健攀升,2025年一季度增长势头持续,净利率提升,经营活动现金流净额同比由负转正,合同负债大幅增长 [10] - 技术护城河:2024年研发投入34.46亿元,研发投入占比37.61%,研发人员占比90.18%;2025年一季度研发投入7.64亿元,CPU和DCU产品应用领域拓展、份额提高 [10] - 生态闭环:通过“光合组织”串联近5000家合作伙伴,打造自主生态闭环,国内龙头企业开展基于海光处理器的生态建设,关键领域基本实现自主可控 [10] 投资建议 - 采用PS估值法,考虑可比公司估值及公司地位,给予2025年30x PS,对应目标价约为177元 [10]
大模型一体机塞进这款游戏卡,价格砍掉一个数量级
量子位· 2025-04-09 08:58
大模型一体机硬件选择 - 大模型一体机中可使用英特尔锐炫显卡作为N卡的替代方案 [1][2] - 飞致云测试显示4张锐炫A770显卡完成大型任务耗时50分钟,比N卡方案慢20分钟但成本仅为半张N卡价格 [6][7] - 英特尔方案将私有化部署成本从百万元级降低一个数量级,性价比显著提升 [12][13][14] 英特尔技术组合优势 - 采用锐炫显卡+至强W处理器的组合拳模式,显卡负责推理加速,CPU协调计算与异构加速 [16][17][20] - 通过优化显存带宽(A770卡间通信20G/秒)和低时延技术提升多卡并行效率,支持70B模型12路实时聊天 [20] - 适配多样化场景:2卡工作站至8卡一体机均可部署,覆盖30-50人团队需求 [9][20][30] 行业应用案例 - 飞致云MaxKB系统应用于知识问答、智能客服等场景,实现效率与成本优化 [5][22] - 超云推出塔式工作站至8卡高端一体机,支持32B-70B模型金融投顾、文档处理 [28][29][30][38] - 云尖边缘推理工作站支持4卡轻量化模型,适用于OCR、智能质检等本地化AI应用 [32] 一体机部署趋势 - 开箱即用、深度定制化特点加速企业部署,无需复杂调试且启动成本低 [35][36][37] - 一体机在运维简化、稳定性和专机专用方面优于传统IT系统与云服务 [39][40][41] - 英特尔方案兼容DeepSeek、Qwen、Baichuan等主流开源模型,适配多业务场景 [43][44] 行业生态与愿景 - 开源模型推动AI普惠,一体机承担类似PC普及的历史使命 [45][46] - 英特尔复刻PC时代成功经验,联合合作伙伴降低AI部署门槛 [46]
AI芯片,需求如何?
半导体行业观察· 2025-04-05 02:35
行业格局变化 - 2023年AI推理领域出现新趋势,传统云服务商(AWS、Azure、谷歌云)之外涌现大量配备Nvidia芯片的GPU云提供商,形成新的竞争格局[1] - 行业出现重大转变,大多数AI基础设施开始在三大云提供商之外构建,创造新的市场机会[1] - 新兴GPU云提供商建立的数据中心配备数千个Nvidia芯片,推动AI推理等计算需求[1] Parasail公司概况 - 由Mike Henry和Tim Harris于2023年底创立,获得1000万美元种子资金[1] - 商业模式类似电力公司,连接AI推理需求方与GPU计算资源供应方[1] - 提供聚合的无合同GPU容量,宣称超过Oracle云基础设施规模[2] - 使用AI部署网络连接企业与GPU提供商,确保工作负载获得所需计算能力[2] 技术优势 - 成本优势显著:相比OpenAI或Anthropic可节省15-30倍成本,相比其他开源提供商节省2-5倍[3] - 部署速度快:GPU设置仅需数小时,推理可在几分钟内完成[3] - 提供多种Nvidia GPU选择,包括H200、H100、A100和RTX4090,价格区间为每小时0.65-3.25美元[3] - 构建全球性Kubernetes编排系统,克服不同GPU云提供商的技术差异[5][6] - 实现跨多个提供商的集群管理,使全球GPU云成为工作节点[6] 市场表现 - 2024年1月开始封闭测试,需求持续增长[8] - 年度经常性收入(ARR)已超过七位数[8] - 客户包括SambaNova、Oumi、Rasa和Elicit等AI领域公司[8] 行业洞察 - 市场存在"奇怪悖论":GPU看似稀缺但实际有大量闲置容量,问题在于优化和利用率不足[9] - 下一代AI应用需求几乎无限,将取代传统互联网应用[9] - 当前市场Nvidia GPU占主导地位,但预计未来会发生变化[9] 团队背景 - 创始人Henry曾创立AI平台公司Mythic,融资1.65亿美元,开发过AI加速硬件[2] - 联合创始人Harris是自动驾驶公司Swift Navigation的创始人[2] - 计划扩充目前12人的团队,重点增加工程岗位[9]
【电子】英伟达GTC2025发布新一代GPU,推动全球AI基础设施建设——光大证券科技行业跟踪报告之五(刘凯/王之含)
光大证券研究· 2025-03-22 14:46
英伟达GTC大会核心观点 - 提出Agentic AI作为AI技术发展的中间态 按照"Generative AI Agentic AI Physical AI"三阶段进化路线推进 [3] - 全球数据中心建设投资额预计2028年达到1万亿美元 Scaling Law发展需要更大规模算力资源投入 [3] 芯片产品规划 - Blackwell Ultra芯片2025年下半年供货 基于Blackwell架构 AI推理性能显著提升 [4] - GB300 NVL72机架级解决方案AI性能比GB200 NVL72提升1.5倍 已全面投产 [4] - Vera Rubin系列芯片为下一代AI平台 预计2026年下半年推出Vera Rubin 2027年下半年推出Vera Rubin Ultra [4] 光通信技术突破 - 推出115.2T的800G Quantum-x CPO交换机 采用微环调制器1.6T硅光CPO芯片 预计2025下半年上市 [5] - 基于CPO共封装光学平台打造Spectrum-x系列光交换机 包括128端口800G和512端口800G型号 [5] 软件与生态系统 - 推出AI推理服务软件Dynamo 支持Blackwell芯片实现推理性能飞跃 [6] - 发布NIM服务支持企业构建AI Agent 推出AI-Q(NVIDIA IQ Blueprint)框架 [6] - 推出DGX Spark个人AI超级计算机和GR00T N1人形机器人模型框架 [6] 大会规模与内容 - 包含1000多场会议 400多项展示和技术实战培训活动 [2] - 聚焦代理式AI 机器人 加速计算等前沿领域发展 [2]
软银收购Ampere Computing
半导体行业观察· 2025-03-20 01:19
软银收购Ampere Computing - 软银同意以65亿美元收购硅谷芯片初创公司Ampere Computing,旨在强化数据中心技术布局[1] - 收购反映软银对Ampere芯片在人工智能领域潜力的看好,认为其可挑战英伟达的领先地位[1] - Ampere成立于8年前,专注于基于Arm技术的数据中心芯片,软银2016年已收购Arm并推动其技术多元化应用[1] - 软银将Ampere作为全资子公司运营,孙正义强调Ampere的高性能计算能力将加速AI愿景实现[1] 行业背景与市场动态 - 交易背景是市场对AI芯片(如支持ChatGPT的芯片)需求激增,软银近期通过多笔交易加码AI领域[2] - "星际之门"计划由软银、OpenAI、甲骨文联合发起,拟投资5000亿美元建设数据中心,英伟达为关键技术伙伴[2] - 数据中心芯片市场中,每售出4块英伟达GPU需搭配1块英特尔/AMD微处理器,后者目前主导AI推理任务[3] - IDC预测AI微处理器市场规模将从2025年125亿美元增至2030年330亿美元[3] 技术竞争与合作伙伴 - 英伟达正推广Arm处理器替代英特尔/AMD芯片,但后者认为软件适配难度高且英伟达未完全放弃原有技术路线[4] - Ampere近期推出专为AI推理设计的Aurora芯片,含512个计算引擎,但面临亚马逊、谷歌等巨头自研Arm芯片的竞争[4] - 甲骨文是Ampere主要支持者,持有29%股份(价值15亿美元),提供基于Ampere芯片的在线服务[4] - 凯雷集团和甲骨文将在收购中出售所持Ampere股份[5] 交易进展 - 彭博社此前报道软银接近达成收购Ampere协议[6]
解读英伟达的最新GPU路线图
半导体行业观察· 2025-03-20 01:19
高科技公司路线图的重要性 - 高科技公司通常拥有技术路线图以向关键投资者和客户展示未来技术发展路径 [1] - 路线图可降低技术规划和采用风险 尤其在芯片制造难度加大的市场环境中 [1] - 部分公司如Oracle、Nvidia和AMD曾通过公开路线图展示技术迭代计划 [2] Nvidia的技术路线图战略 - Nvidia通过公开路线图向超大规规模客户展示其持续领先的技术开发能力 [2] - 路线图涵盖GPU、CPU、纵向扩展网络和横向扩展网络等多领域技术 [3] - 公司未将Quantum系列InfiniBand交换机纳入路线图 因AI领域更倾向以太网解决方案 [4] Blackwell系列GPU技术细节 - Blackwell B100/B200 GPU实际发布于2023年 而非路线图标注的2024年 [5] - B300 GPU内存容量提升50%至288GB FP4性能提升50%达15千万亿次浮点运算 [7] - GB300 NVL72系统FP4推理性能达1100 petaflops FP8训练性能360 petaflops 计划2025年下半年上市 [7] ConnectX系列网络技术进展 - ConnectX-8 SmartNIC速度达800Gb/秒 是前代ConnectX-7的两倍 计划2024年推出 [8] - 2028年将推出ConnectX-10 NIC 速度进一步提升至3.2Tb/秒 [18] Vera Rubin架构创新 - 2026年推出的Vera CV100 Arm处理器采用88核设计 支持同步多线程至176线程 [8] - NVLink C2C带宽翻倍至1.8TB/秒 与Blackwell GPU的NVLink 5匹配 [8] - Rubin R100 GPU配备288GB HBM4内存 带宽提升62.5%至13TB/秒 [9][10] 机架级系统性能飞跃 - VR300 NVL144系统FP4性能达50千万亿次浮点运算 是GB200系统的5倍 [13] - 2027年Rubin Ultra GPU将集成4个芯片于单插槽 FP4性能100 petaflops 配备1TB HBM4E内存 [14] - VR300 NVL576系统采用Kyber液冷机架设计 推理性能达15百亿亿次浮点运算 是当前系统的21倍 [16][17] 未来技术规划 - 2028年"费曼"GPU将搭配Vera CPU和3.2Tb/秒ConnectX-10 NIC [18] - 路线图显示Nvidia将持续提升NVSwitch带宽 2028年达7.2TB/秒 [18] - 公司通过系统级创新保持AI计算领域的技术领先地位 [19]