Workflow
DeepSeek v3.2
icon
搜索文档
大摩开门会:中国AI算力的供给及需求
2025-12-15 01:55
那放开H20来讲不仅对于中国企业来说没有特别大的增益反而可能从政策的层面上来看会去妨害国产芯片的发展那我们反观H200呢H200则是一款更多针对于训练去使用的芯片并且它目前在性能和速度上都还处在一个领先的地位目前国内还没有非常好的替代品 虽然对于最为前沿的这种SOTA模型的训练来说还是更需要Blackwell架构的芯片但是据我们了解呢国内还是有大量的模型还没有完成从Hooper架构向Blackwell架构的转变那H200其实还是会有很大的需求所以让中国企业去能够采购H200会更加符合国内AI行业发展的这个需要 所以我们推测最后监管层还是会允许企业去采购H200但是有可能是要通过一个审批的形式就这样更能去平衡模型玩家的这个需求以及国产芯片的发展那说完了监管侧我们再来看具体的需求侧 各位上午好今天是12月12号星期五欢迎来到摩根士丹利周五的新经济板块热点简单在线直播我是Charlie请注意本会议景面向摩根士丹利的机构客户以及财务顾问本会议不对媒体开放如果您来自媒体请请退出本次会议随后我们会进一步联系以及了解详情 关于重要的信息披露请至Morgan Stanley的信息披露网页请注意本次会议内容和您的提问可能会被录 ...
AI 价值链-Google Gemini 3 Pro、Claude Opus 4.5、Grok 4.1 与 DeepSeek 3.2…… 谁才是真正的领导者?这意味着什么
2025-12-12 02:19
涉及的行业与公司 * **行业**:人工智能(AI)行业,特别是大型语言模型(LLM)领域、AI基础设施与半导体行业 [1] * **公司**: * **AI模型开发商**:Google(Gemini)、Anthropic(Claude)、xAI(Grok)、OpenAI(GPT)、Meta、DeepSeek [2][3][6] * **半导体与基础设施供应商**:NVIDIA(NVDA)、Advanced Micro Devices(AMD)、Broadcom(AVGO) [7][10] * **云服务与互联网平台**:Amazon(AMZN)、Alphabet(GOOGL)、Meta Platforms(META) [9][11][12] 核心观点与论据 * **近期模型性能评估**:Gemini 3 Pro 与 Claude Opus 4.5 在第三方基准测试中表现不相上下,而 DeepSeek v3.2 的领导地位声明受到更多质疑,因其基准测试排除了 Claude Opus 4.5 且在某些代理任务上承认落后 [3][14][16] * **缩放定律依然有效**:预训练和后训练的缩放定律显然并未失效,这增强了AI实验室及其资金支持者快速建设AI基础设施的信心 [4][15] * **OpenAI面临挑战**:OpenAI已从明显领先者地位滑落,可能已不在前三,原因包括GPT-5表现令人失望、连续三次预训练失败、关键人才大量流失以及管理层发出“红色警报” [6][18] * **计算稀缺是核心主题**:尽管新模型未使用 Blackwell GPU 且部分使用ASIC/TPU训练引发对NVIDIA护城河的担忧,但当前核心主题是计算稀缺,GPU和ASIC都将因此受益 [7][20][22] * **范式向产品化与货币化转移**:长期来看,行业范式可能从模型基准测试转向产品采用和货币化,Gemini 3 虽性能领先但未能取代 ChatGPT 在应用商店的榜首位置即是例证 [8][22] * **投资影响**: * **NVIDIA(NVDA)**:数据中心机会巨大且仍处早期,近期股价停滞反应过度,当前估值具有吸引力 [10][22] * **Broadcom(AVGO)**:强劲的2025年AI发展轨迹预计将在2026年加速 [10] * **AMD(MP)**:AI预期仍高,但与OpenAI的新交易有望推动进一步增长 [10] * **Amazon(AMZN)**:随着大量产能上线、Tranium 3 推出及企业级AI产品简化,AWS增长预计将加速 [11] * **Alphabet(GOOGL)**:Gemini 3 的发布和TPU叙事支撑了其强劲走势,但需关注从纯模型性能向产品采用的转变 [11][22] * **Meta(META)**:被认为是最有能力将AI货币化的公司之一,需平衡盈利增长与AI模型前沿进展 [12] 其他重要细节 * **模型发布与参数**:过去三周内发布了 Grok 4.1、Gemini 3 Pro、Claude Opus 4.5 和 DeepSeek v3.2 四款模型,DeepSeek v3.2 披露总参数量为 6850亿,每令牌激活约 370亿 参数 [2][16] * **基准测试数据**: * LLM Arena 总体排名显示 Gemini 3 Pro 第一,Grok 4.1-thinking 第二,Claude Opus 4.5 第三 [36] * Google 披露的基准测试中,Gemini 3 Pro 在多项测试领先,例如 Humanity's Last Exam(45.8%)、AIME 2025(100%)、Vending-Bench 2(平均净值 5,478.16 美元) [24] * **基础设施成本分析**: * 一个 GB200 / NVL 72 机架的物料成本(BOM)约为 341.3万美元,其中 GPU(含设计毛利)占比 38.8% [38] * 支持 1吉瓦(GW)数据中心容量的总资本支出约为 35.2亿美元,其中机架成本占 20.2亿美元 [39] * **估值与目标价**: * NVIDIA(NVDA):目标价 275美元,基于约 33倍 的 FY27/FY28 平均非GAAP每股收益预期 8.43美元 [43] * AMD(AMD):目标价 200美元,基于约 30倍 的 FY2026/27 平均非GAAP每股收益预期 6.95美元 [44] * Broadcom(AVGO):目标价 400美元,基于约 35倍 的 FY2026/27 平均备考每股收益预期 11.38美元 [45] * Amazon(AMZN):目标价 300美元,采用 SOTP 和 DCF 各占 50% 的估值方法 [46] * Alphabet(GOOGL):目标价 305美元,采用 2027年 EV/EBIT 倍数(23倍)和 DCF 各占 50% 的估值方法 [47] * Meta(META):目标价 870美元,采用 2027年 EV/Sales 倍数(8倍)和 DCF 各占 50% 的估值方法 [48]
加速了!刚刚,重大突破!发生了什么?
证券时报网· 2025-10-09 05:03
市场整体表现 - 10月9日沪指突破3900点整数关口,为10年来首次,日内涨幅0.58% [1] - 深成指涨超1%,创业板指涨超1%,科创50指数大涨超5% [1] - A50期指大涨超1%,香港市场亦由跌转涨 [1] - 截至上午10时40分左右,上证指数涨幅扩大至1%,创业板指涨超2%,科创50大涨近6% [3] - 两市总成交额达735.15亿 [3] 领涨板块与驱动因素 - 半导体产业链持续大爆发,存储芯片是重要主线 [1][2] - 有色、电子、电力设备行业涨幅居前 [3] - 市场加速突破主因包括融资盘加速回补,节前最后一个交易日两市融资余额减少近338亿元 [1][4] - 节后外围市场普遍造好,人工智能爆款不断,有色金属迭创新高,为市场提供炒作土壤 [1][5] 关键个股表现 - 科创50成分股中,芯原股份涨超15%,芯联集成、中微公司、澜起科技、拓荆科技涨幅居前 [2] - 华虹公司逼近20%涨停,兆易创新冲击涨停并创历史新高 [2] - 对上证指数贡献最大的个股包括工业富联(贡献4.75点,涨幅5.71%)、紫金矿业(贡献2.49点,涨幅6.49%)、海光信息(贡献2.40点,涨幅6.44%) [4] 外围市场与宏观背景 - 国庆中秋假期全球主要股指和商品价格普遍上涨,日本股市、国际铜价涨幅最大 [6] - 美国政府关门扰动、未来降息和衰退预期推动金银等贵金属和比特币价格走高 [6] - 供给短缺和算力革命逻辑下,铜价近期明显走强 [7] - Sora2、DeepSeek v3.2等AI新品发布,英伟达与AMD构筑生态系统 [7] 机构后市观点 - 分析人士认为10月份市场大概率维持震荡向上格局,国庆后市场历史上普遍“涨多跌少” [7] - 东吴证券认为节后需重视量价配合,市场风格或偏向具备催化的远期成长属性更强方向 [7] - 中信建投认为“十五五”规划有望成为市场焦点,预计市场仍将以科技为主线方向 [8] - 政策导向和产业催化有望推动AI、新能源、人形机器人、创新药等行业领涨 [8]
大盘加速突破,发生了什么?
证券时报· 2025-10-09 04:23
市场整体表现 - 10月9日沪指突破3900点整数关口,为10年来首次,日内涨幅0.58% [1] - 深成指涨超1%,创业板指涨超1% [1] - 科创50指数大涨超5%,半导体产业链持续爆发 [1] - A50指数大涨超1%,香港市场由跌转涨 [1] - 截至上午10时40分左右,上证指数涨幅扩大至1%,创业板指涨超2%,科创50大涨近6% [3] 主要股指及成交数据 - 科创50指数开盘1526.92点,昨日收盘1495.29点,指数振幅59.49点或3.98% [3] - 科创50总成交额735.15亿,总成交量1147.4万 [3] - 沪市总市值623,677亿,A股成交额6,154.26亿 [3] - 截至9月30日,上交所融资余额报12,086.18亿元,深交所融资余额报11,623.54亿元,两市合计23,709.72亿元,较前一交易日减少338.54亿元 [4] 领涨板块及个股 - 半导体产业链涨势扩大,芯原股份涨超15%,芯联集成、中微公司、澜起科技、拓荆科技涨幅居前 [2] - 存储芯片是重要主线,华虹公司逼近20%涨停,雅克科技、深南电路、通富微电、赛腾股份、太极实业集体封板,兆易创新冲击涨停创历史新高 [2] - 工业富联、紫金矿业、海光信息、寒武纪、中芯国际对指数贡献最大 [3][4] - 有色、电子、电力设备行业涨幅居前,宁德时代涨近5% [3] 市场上涨驱动因素 - 融资盘加速回补是主因之一,节前最后一个交易日两市融资余额减少近338亿元 [1] - 节后外围市场普遍造好,人工智能爆款不断,有色金属迭创新高,为市场提供炒作土壤 [1][5] - 人工智能各种爆款故事持续演绎,外围存储芯片持续大涨,有色金属不断创新高 [5] - 国庆中秋假期全球主要股指和商品价格普遍上涨,日本股市和国际铜价涨幅最大 [6] 行业与主题催化 - 供给短缺和算力革命逻辑下,铜价近期明显走强 [6] - Sora2、DeepSeek v3.2等AI新品发布,英伟达与AMD构筑生态系统,推动AI基础设施从单一硬件竞争转向系统性生态竞争 [6] - 固态电池、核聚变等技术出现重大突破,为市场提供炒作结构 [5] 机构后市观点 - 10月份市场大概率维持震荡向上格局,国庆后市场普遍呈现"涨多跌少"格局 [7] - 市场风格或偏向具备催化、远期成长属性更强、估值约束更低的方向,以及政策+涨价逻辑支撑的顺周期链条 [7] - "十五五"规划有望成为市场资金关注焦点,预计市场未来仍将以科技为主线方向 [7] - 在经济基本面平稳、增量资金流入、全球流动性宽松背景下,A股有望维持震荡向上趋势 [7]
DeepSeek突然拥抱国产GPU语言,TileLang对标CUDA替代Triton,华为昇腾Day0官宣支持适配
36氪· 2025-09-30 02:52
TileLang技术特性 - TileLang是一种专门用于开发GPU内核的领域专用语言,性能可对标英伟达CUDA,采用Python式语法并在TVM之上构建编译器基础架构[4][13] - 其核心设计理念是将调度空间与数据流解耦并封装为可自定义的注解和原语,以Tile作为编程模型核心概念,直观控制数据在全局内存、共享内存和寄存器间的流动[15] - 提供三个层次编程接口:硬件无关的高层接口供初学者使用,包含预定义优化操作的Tile Library供有经验开发者使用,以及允许直接操作线程同步等底层特性的线程原语供专家用户使用[15] 性能优势与效率提升 - 使用TileLang只需不到100行代码就能写出比Flash Attention 2原版快30%的注意力实现[3] - 在FlashAttention算子开发中,代码量从500多行减少至80行,并保持与官方版本持平的性能[5] - 在H100上的MLA解码速度,TileLang编写的内核做到与FlashMLA相当[21] 行业生态适配与合作 - TileLang与国产算力生态适配,华为昇腾在第一时间公告对TileLang的支持[4] - 沐曦集成电路的高级总监董兆华与TileLang团队成员共同讨论沐曦GPU与TileLang的适配[5] - 该语言由北大团队主导开发,核心人物包括王磊、董宇骐以及北大计算机学院副研究员、博士生导师杨智[9] DeepSeek与TileLang的合作关系 - DeepSeek在v3.2中开源TileLang版本算子,其受关注程度超过新稀疏注意力机制DSA[1] - DeepSeek团队使用TileLang快速开发原型,之后用更底层的方法进一步优化性能,v3.2论文中提到在内核层面共享k-v提升计算效率,让DSA的闪电索引器机制运行速度远超传统实现[17] - DeepSeek v3.2验证了TileLang确实可以用来训练模型,TileLang发起人王磊发帖致敬DeepSeek敢于使用新编程语言开发核心产品[23]
DeepSeek突然拥抱国产GPU语言!TileLang对标CUDA替代Triton,华为昇腾Day0官宣支持适配
量子位· 2025-09-30 00:57
TileLang技术特性 - 专门用于开发GPU内核的领域专用语言,性能对标英伟达CUDA[6] - 采用Python式语法,在TVM之上构建底层编译器基础架构[18] - 核心设计理念是将调度空间与数据流解耦,封装为可自定义的注解和原语[19] - 提供三个层次编程接口:硬件无关高层接口、优化过的预定义操作库、线程原语级别控制[20][21][22][23] - 以"Tile"为编程模型核心概念,通过显式Tile抽象控制数据在内存间的流动[19] TileLang性能表现 - 只需不到100行代码就能写出比Flash Attention 2原版快30%的注意力实现[5] - 在华为昇腾上实现FlashAttention算子开发,代码量从500+行减少至80行,性能与官方版本持平[8] - 在H100上的MLA解码速度与FlashMLA相当[31] - 通过缓存中间数据,比全局内存快得多[28] DeepSeek与TileLang合作 - DeepSeek v3.2开源TileLang版本算子,关注度超过新稀疏注意力机制DSA[2] - DeepSeek团队使用TileLang快速开发原型,后用更底层方法进一步优化性能[26] - TileLang团队成员曾向DeepSeek团队推荐该语言,并以DeepSeek发布的FlashMLA内核作为评测基准[29][31] - DeepSeek v3.2验证了TileLang可用于训练模型[34] 产业生态支持 - 华为昇腾在第一时间公告对TileLang的支持[7] - 沐曦集成电路与TileLang团队讨论GPU适配问题[9] - TileLang由北大团队主导开发,核心人物包括王磊、董宇骐和杨智[15] - GitHub项目获得1.9k星标,172次fork[18]