NVIDIA H100 GPU

搜索文档
算力:怎么看算力的天花板与持续性
2025-09-28 14:57
算力:怎么看算力的天花板与持续性 20250928 摘要 AI 技术快速迭代推动需求增长,例如 Google Genie 3 模型生成一分钟 360 度全景视频需要 520 万个 token,远超现有 LLM 的 TPS 能力,表 明高带宽、高算力需求持续增加。 2025 年上半年海外 AI 算力需求增加,光模块和 PCB 龙头企业毛利率呈 上升趋势,即使抵消价格年降因素,同比毛利率仍增加,表明 AI 算力市 场良性增长。 综上所述,这些因素使得 AI 算力相较于 4G/5G 享有更强的贝塔值和更高估值。 AI 算力产业为何具有如此显著的成长性? AI 算力产业之所以具有显著成长性,是因为其不仅创造了大量增量价值,还能 提升整个社会生产总值。具体而言: AI 算力通过数据飞轮驱动,token 调用量呈指数增长,Open Router 平台一年内调用量增长 28 倍,远超移动互联网流量十年 60%的增长, 显示出 AI 算力更强的可扩展性。 AI 算力投资回报期短,采用使用量计费模式,上线即可变现,高利用率 下现金回笼快,优于 4G/5G 先覆盖后变现、回本周期长达 8-10 年的模 式。 AI 算力软硬件协同 ...
OpenAI 和英伟达再续前缘
虎嗅· 2025-09-25 09:53
9月22日消息,OpenAI 和英伟达宣布合作,英伟达将向OpenAI 投资1000亿美元的算力。 这一投资将用于为 OpenAI 的下一代 AI 基础架构部署10千兆瓦的NVIDIA 系统——相当于一座大城市的能源需求,黄仁勋称其为"史上最大的AI基础设施项 目"。 消息官宣后,英伟达的股价上涨了4个百分点。 黄仁勋表示:"从第一台 DGX 超级计算机到 ChatGPT 的突破,NVIDIA 和 OpenAI 十年来一直相互推动。此次投资和基础设施合作标志着我们迈出了新的一 步——部署 10 千兆瓦电力,为下一个智能时代提供动力。" 不难预见,这一强强联合将在优化 OpenAI 模型和基础架构软件的同时,扩大 NVIDIA 硬件和软件的路线图。英伟达表示,此次合作是对 OpenAI 和 NVIDIA 与微软、甲骨文、软银和 Stargate 合作伙伴等广泛合作伙伴网络开展的深入工作的补充,致力于构建世界上最先进的 AI 基础设施。 自 2022 年 ChatGPT 爆火以来,AI 基础设施(包括数据中心、GPU 集群、冷却系统和电力供应)已成为科技巨头和投资者的焦点。2025 年,这一趋势进一 步加速,全球 ...
26天倒计时:OpenAI即将关停GPT-4.5Preview API
36氪· 2025-06-18 07:34
公司动态 - OpenAI宣布将于7月14日正式移除GPT-4.5 Preview API [2] - GPT-4.5预览版将继续作为选项提供给个人ChatGPT用户使用 [5] - OpenAI早在4月发布GPT-4.1时就已公布移除计划,GPT-4.5始终是实验性产品 [5] 开发者影响 - 开发者需在27天内从近40个模型中寻找替代品 [3] - 迁移涉及提示词重标定、延迟与费用模型重算及向客户解释语气变化 [8] 商业策略 - GPT-4.5 API定价高昂,输入tokens为75美元/百万,输出tokens为150美元/百万 [6] - OpenAI降低o3 API价格80%,集中资源推广成本可控的主力模型 [8] - 公司战略聚焦规模效应和成本优化,舍弃定位模糊的边缘产品 [8] 财务与估值 - OpenAI在2025年3月完成400亿美元融资,由软银主导,估值达3000亿美元 [11] - 高估值依赖领先模型溢价和渠道议价能力,但模型迭代速度和算力成本构成天花板 [11] 技术背景 - GPT-4.5使命是为未来模型迭代提供创意和写作细微之处的经验 [5] - NVIDIA H100 GPU市价约2.5万美元,满载功耗700W [6] - ChatGPT Plus仍按20美元/月收费,公司需优化算力分配 [6]
DeepSeek-R1与Grok-3:AI规模扩展的两条技术路线启示
Counterpoint Research· 2025-04-09 13:01
核心观点 - DeepSeek-R1 和 Grok-3 代表了AI发展的两种不同路径:前者通过算法创新和高效资源利用实现高性能,后者依赖大规模计算资源投入 [2][8] - 行业趋势正从“原始规模主导”转向“战略效率优先”,算法设计、混合专家模型(MoE)和强化学习成为关键杠杆 [8][10] - 未来AI发展将更注重投资回报率(ROI),平衡规模扩展与算法优化 [8][10] 模型性能与资源对比 - DeepSeek-R1 仅使用约2000块NVIDIA H800 GPU即达到全球前沿推理模型性能,展现高效训练能力 [2] - Grok-3 动用约20万块NVIDIA H100 GPU,性能略优于DeepSeek-R1、GPT-o1和Gemini 2,但资源消耗相差百倍 [2][8] - 两者性能相近,但资源投入差异显著,凸显算法创新可抗衡纯计算规模 [8] 发展路径差异 - Grok-3 采用“蛮力策略”,依赖数十亿美元GPU计算规模,边际性能提升显著但ROI递减 [8] - DeepSeek-R1 通过混合专家模型(MoE)、推理强化学习和高质量数据,以最小硬件代价实现顶尖性能 [8] - 行业可能从“规模法则”转向“算法突破+工程实用主义”的全局发展观 [10] 未来AI趋势 - 集中式训练项目(如Grok-3)成本过高,仅限少数巨头参与,中小机构需转向效率优化策略 [10] - 混合专家模型(MoE)、稀疏化、改进微调和强化学习将成为核心,降低资源消耗 [10] - 新数据训练与强基础模型结合(如RAG或定期微调),可避免持续大规模计算负担 [10]
一文读懂,可重构芯片为何是AI的完美搭档
半导体行业观察· 2025-03-24 01:23
AI算法演进与芯片设计挑战 - AI算法从早期简单机器学习发展到复杂深度学习和Transformer模型,应用场景从边缘端(如智能安防、家居)扩展到云端(如数据中心分析、语音交互)[1] - 边缘端需高能效处理实时图像识别等任务,云端需大算力支持海量数据处理,AI芯片性能直接决定应用效果[1] - 传统固定架构芯片难以满足AI算法多样化需求,存在硬件性能瓶颈[1] 神经网络模型特征 - **拓扑结构复杂性**:从简单卷积层发展到ResNet残差连接、注意力机制等动态结构,特斯拉2023年展示的神经网络模拟人脑连接[2] - **多维稀疏性**:从一维权重稀疏性(剪枝)发展到输入/权重/输出的三维稀疏性,跳过0值计算可减少30%-50%无效操作[3][6] - **动态精度需求**:推理阶段从统一INT8量化发展为分层/元素级混合精度;训练阶段FP32/FP16向FP8混合精度过渡,NVIDIA H100 GPU采用FP8+FP16混合加速Transformer训练[5] 硬件重构技术优势 - **对比软件编程**:硬件重构可动态适应不同拓扑/稀疏性/精度,处理稀疏矩阵时效率提升50%以上,而软件编程难以优化0值计算[8][11] - **芯片级重构**:通过BENES网络处理稀疏性,清微智能TX5-TX8系列硬件利用率提升50%+,乱序计算减少内存访问[9] - **PEA级重构**:整体重构支持顺序执行,交错重构支持多任务并行,硬件利用率达80%(GPU仅50%)[10][12] - **PE级重构**:位串行(低功耗)、位融合(高速度)、浮点融合(混合精度训练)等技术针对不同场景优化,如边缘端采用位串行,云端使用位融合[12] 可重构芯片应用前景 - 三级重构(芯片/阵列/PE)综合解决"存储墙"问题,提升能效和面积利用率,清微智能TX8系列实现中间数据直接传递,减少访存能耗[13][14] - 行业应用覆盖智能安防、机器人、智算中心及大模型市场,清微智能已量产TX5/TX8系列十余款芯片,斯坦福背景的SambaNova Systems成为2023年AI芯片估值最高独角兽[15]