大语言模型 - 财报，业绩电话会，研报，新闻 - Reportify

大语言模型

搜索文档

国金证券：AI+电商服务进入提效阶段关注后续业绩兑现

智通财经网· 2025-10-16 02:40

AI应用发展阶段 - AI应用从早期小范围试水进入规模化价值兑现阶段 [2] - 多模态大模型技术成熟度提升且调用成本大幅下降例如国内通义千问模型推理成本相较于2023年平均降低80% [2] - AI工具与电商全链路运营深度融合成为驱动电商及线上服务行业公司业绩增长的重要引擎 [2] 电商与线上服务行业优势 - 电商行业算力需求呈现间歇波动特征企业可采取公私算力混合方式优化使用成本 [3] - 电商数据中台覆盖用户行为、交易数据、内容数据等12类异构数据源为AI提供充足燃料并提升模型精度 [3] - 2025年电商行业模型架构呈现通用大模型加垂直精调的混合模式国内大模型输入价格平均比国外低92.6% 输出价格平均比国外低160.3% [3] AI应用效果与业绩兑现 - AI应用带来收入曲线抬头与成本曲线下降的双向拐点 [4] - 降本端通过AI流程自动化优化人力结构例如丽人丽妆借助虚拟人直播覆盖40%直播时长且单场GMV峰值达500万元 [4] - 增效增收端潜力巨大在获客阶段通过生成式AI提升点击率在用户激活阶段通过3D建模和虚拟试穿增强体验在变现阶段通过需求预测优化库存在自传播阶段通过流程自动化降低退换货率 [4] 行业竞争与投资关注点 - AI+跨境电商行业竞争从渠道扩张转向效率竞争建议关注聚焦技术驱动外贸效率革命的头部平台 [1] - AI+电商代运营行业分化加剧具备AI技术储备的头部企业优势有望扩大建议关注全链路AI落地且利润率改善的服务商 [1] - AI+教育/人服通过NLP技术解析岗位需求与简历结合人才发展预测模型显著提升招聘效率建议关注政策支持且效率显著提升的细分标的 [1]

国金证券(SH:600109)

大语言模型

虚拟人直播

智能客服Agent

大语言模型

虚拟人直播

智能客服Agent

即将开课！自动驾驶VLA全栈学习路线图分享~

自动驾驶之心· 2025-10-15 23:33

自动驾驶VLA行业趋势 - 自动驾驶VLA是学术界和工业界在端到端之后聚焦的核心方向，提供了类人思考能力并通过思维链形式展现决策过程，以实现更可靠和安全的自动驾驶[1] - 行业将自动驾驶VLA划分为三个子领域：模块化VLA、一体化VLA和推理增强VLA[1] - 传统的BEV感知、车道线、Occupancy等方向相对成熟，学术界和工业界关注度逐渐下降，自动驾驶VLA成为各家企业急需攻克的方案[4] - 主流自动驾驶企业，包括智驾方案供应商和车企，均在发力自研自动驾驶VLA[4] 自动驾驶VLA技术核心 - 自动驾驶VLA涉及视觉感知、大语言模型、Action建模、大模型部署、数据集制作等核心内容[6] - 最前沿算法包括CoT、MoE、RAG、强化学习[6] - 模块化VLA强调多阶段pipeline（感知→语言→规划→控制），语言模型为规划决策提供信息[16] - 一体化VLA直接连接动作解码器，实现感知→控制的端到端映射，通过单次前向传播将传感器输入映射为控制动作[16] - 推理增强VLA新增推理模块（如Chain-of-Thought、记忆体、工具调用），同步输出控制信号和自然语言解释，支持长时序规划和因果解释[17] 课程内容与结构 - 课程第一章介绍VLA算法概念、发展历史、开源BenchMark和常见评测指标[12][13] - 第二章讲解VLA算法基础，涵盖Vision、Language、Action三个模块基础知识及大模型结合，并以Qwen 2.5VL-72为例讲解开源大模型部署[14] - 第三章讲解VLM作为自动驾驶解释器的经典及最新算法，包括DriveGPT4、TS-VLM、DynRsl-VLM、SENNA，重点分析算法动机、网络结构和核心[15] - 第四章聚焦模块化与一体化VLA，配套实战代码学习选取华科和小米最新提出的ReCogDrive，涵盖预训练、模仿学习、强化学习GRPO、扩散模型轨迹输出等技术栈[16] - 第五章聚焦推理增强VLA，讲解ORION、OpenDriveVLA、DriveMoE、DiffVLA、S4-Driver、FutureSightDrive、AutoVLA、Drive-R1等算法，并配套清华AIR和博世提出的Impromptu VLA实战代码[17][18][19][23] - 第六章设置大作业，要求学员基于ms-swift框架自定义数据集和加载模型，进行训练任务微调，并提供V-L-A各部分代码解读[20] 行业人才培养 - 课程由清华大学教研团队联合开展，旨在推动自动驾驶VLA在学术界和工业界的发展[6][22] - 讲师团队包括在ICCV/IROS/EMNLP/Nature Communications等顶级会议发表论文的清华大学硕士生、QS30高校博士在读研究员，具备丰富的自动驾驶、大模型研发和实战经验[8][9] - 学员需自备GPU，推荐算力在4090及以上，并具备自动驾驶领域基础、transformer大模型、强化学习、BEV感知等技术概念，以及概率论、线性代数、Python和PyTorch基础[24] - 课程为国内首个自动驾驶VLA进阶实战教程，预计两个半月结课，采用离线视频教学配合VIP群内答疑及三次线上答疑的模式[22][23]

自动驾驶VLA

大语言模型

大模型部署

数据集制作

自动驾驶VLA

大语言模型

大模型部署

数据集制作

看好中国经济发展“MIT”优势

中国证券报· 2025-10-15 20:15

核心观点 - 坚定看多中国资本市场，认为中国经济发展具备制造业、创新、人才三大优势，即“MIT”优势 [1] 制造业优势 - 中国在过去三十年已建立起强大的制造业生态，包括工厂、机器设备及港口、机场、公路、电厂等完善的基础设施 [2] - 在未来十年至三十年内，没有任何国家能够复制如此庞大的生态体系 [2] - 随着中国企业在制造业中开始应用人工智能，这种优势在未来只会更加显著 [2] 创新优势 - 中国在5G、即将到来的6G以及无人机、锂电池、高速铁路、电动车、北斗导航系统等领域均居世界领先地位 [2] - 美国顶级科技公司研发中心中，约有三分之一的工程师是华人，表明具备创新能力 [2] - 以DeepSeek为例，其在大语言模型领域取得了突破性创新进展，将激励新一代创新者 [2] 人才优势 - 人才包括企业家、工程师和产业工人，他们积极进取、充满斗志、富有创造力 [3] - 以成都一家生物科技公司为例，其投资先进设备，创始人拥有美国教育背景与工作经验，体现了高素质人才 [3] - 对中国信心的重要来源之一，正是来自对企业的走访、与高层团队或创始人的深入交流 [3] 宏观经济与市场前景 - 中国的GDP增速快于德国、英国、日本和美国等主要经济体，而且这一趋势将持续多年 [2] - 虽然很难预测短期市场走势，但将时间拉长，判断正确率能达到七成左右，足以作为参考基础 [2] - 坚信中国发展的辉煌岁月还在前方，中国资本市场的未来充满光明 [3]

中国经济发展“MIT”优势

大语言模型

中国经济发展“MIT”优势

大语言模型

蚂蚁开源万亿参数思考模型 Ring-1T，综合能力逼近 GPT-5、数学能力对标 IMO 银牌

AI前线· 2025-10-15 07:45

模型发布与核心能力 - 蚂蚁集团正式推出并开源万亿参数思考模型Ring-1T [2] - 模型在IMO2025赛题解题中达到银牌水平一次解出第1、3、4、5题 [2] - 在人类偏好对齐测试Arena-Hard V2中取得81.59%的成功率位居开源模型榜首 [3] - 在医疗问答HealthBench测评中以最高分取得开源领域最佳成绩 [3] 技术创新与工程实现 - 采用自研"棒冰（icepop）"算法解决万亿参数模型训推精度差异难题 [5] - 自研高性能强化学习系统ASystem 实现单机显存碎片秒级回收和权重零冗余交换 [6] - 模型基于Ling 2.0架构采用稀疏MoE、1/32专家激活比、FP8混合精度等技术 [8] - 通过LongCoT-SFT + RLVR + RLHF多阶段后训练提升复杂推理和通用能力 [8] 产品矩阵与战略发展 - 蚂蚁百灵大模型已发布18款模型形成从160亿到1万亿参数的产品矩阵 [9] - 拥有两款万亿参数模型：通用大语言模型Ling-1T和思考模型Ring-1T [9] - 随着两款万亿模型发布百灵大模型正式步入2.0阶段 [9]

万亿参数思考模型

大语言模型

Artificial Intelligence

万亿参数思考模型

大语言模型

Artificial Intelligence

腾讯发布超低成本AI训练法！120元效果秒杀70000元微调方案

量子位· 2025-10-15 06:27

文章核心观点 - 腾讯优图团队提出一种名为“无训练组相对策略优化”的新方法，该方法无需调整大语言模型参数，仅通过在提示词中学习简短经验即可显著提升模型性能 [1][2] - 该方法成本效益极高，在671B大型模型上应用仅需约18美元，远低于传统微调方法超过10000美元的成本 [5][28] - 实验证明该方法在数学推理和网页搜索任务上能实现显著的跨领域性能提升，例如将DeepSeek-V3.1-Terminus模型在AIME25上的得分从67.9%提升至73.3% [4][27][28] 技术原理与方法 - 该方法保持模型参数永久冻结，转而维护一个外部经验知识库，通过动态更新知识库而非模型参数来实现性能优化 [14] - 核心流程包括生成分析摘要、提取自然语言经验、以及通过添加、删除、修改或保留操作来更新经验库 [18][19][24] - 该方法通过改变上下文而非模型参数本身，将模型引向高奖励输出，被冻结的基础模型起到了强先验作用，保证输出的连贯性和稳定性 [22] 数学推理任务性能 - 在AIME24和AIME25基准测试中，应用Training-Free GRPO的DeepSeek-V3.1-Terminus模型得分分别从80.0%提升至82.7%，从67.9%提升至73.3% [27][28] - 该方法仅使用100个跨域训练样本且无需梯度更新，成本约18美元，而传统强化学习方法需要数千个训练样本，成本超过10000美元 [28] - 随着每一步学习，模型表现持续提升，平均工具调用次数下降，表明模型学会了更高效地使用工具 [30][31] 网页搜索任务性能 - 在WebWalkerQA基准测试中，应用Training-Free GRPO的DeepSeek-V3.1-Terminus模型的Pass@1得分从63.2%提升至67.8% [34][35] - 完整的Training-Free GRPO方法取得了最佳表现，Pass@1为68.6%，Pass@3为78.4%，凸显了结合真实答案指导、语义优势和经验优化的重要性 [38][39] - 该方法的有效性依赖于基础模型的能力，在QwQ-32B模型上应用时性能提升不明显，甚至低于基线 [40] 成本效益分析 - 与传统微调32B模型相比，该方法在671B大型模型上所需训练数据更少、成本更低 [5] - 对于不同规模的模型，该方法都展现出高性价比，如在Qwen3-32B模型上应用成本仅约4美元，在Qwen2.5-72B-Instruct模型上成本约3美元 [27] - 该方法以极低的成本实现了显著的性能提升，被网友评价为“太划算了吧” [7]

腾讯控股(HK:00700)

大语言模型

无训练组相对策略优化Training-Free GRPO

DeepSeek-V3.1-Terminus

大语言模型

无训练组相对策略优化Training-Free GRPO

DeepSeek-V3.1-Terminus

卡帕西 8000 行代码手搓 ChatGPT，成本仅100美元，训练 12 小时 CORE 表现超越GPT-2

程序员的那些事· 2025-10-15 00:44

项目概述 - Andrej Karpathy发布名为nanochat的极简全栈训练/推理pipeline项目，旨在从零开始构建简易版ChatGPT [1][2] - 项目包含约8000行代码，采用全新Rust语言实现，依赖少量单一代码库 [4][5] - 核心目标是将完整技术栈整合为统一、极简、易读、可修改、易分发的代码库，作为LLM101n课程的压轴项目 [11][12] 成本与效率 - 在8×H100 GPU服务器上训练4小时，总成本约100美元即可复刻基础对话版ChatGPT模型 [3][4] - 总训练时间约3小时51分钟，总成本为92.4美元，若包含强化学习阶段总时间接近5小时 [7][57] - 训练深度为30的模型24小时后（算力消耗仅为GPT-3的千分之一），在MMLU数据集可达40多分，ARC-Easy达70多分，GSM8K达20多分 [10] 技术架构与流程 - 实现完整训练pipeline：预训练分词器、在FineWeb数据集预训练Transformer、中期训练、指令微调、可选强化学习 [5] - 推理引擎支持KV缓存、预填充/解码流程、工具使用（Python解释器），可通过CLI或类ChatGPT的WebUI交互 [5][49] - 训练20层Transformer模型，参数量约560M，需11.2B tokens训练，计算量达4e19 FLOPs [33][34][35] 性能表现 - 基础模型CORE指标达0.2219，超越GPT-2 large（0.21），略低于GPT-2 xl（0.26） [7][41] - 监督微调后模型在ARC-Easy达0.3876，GSM8K达0.0455，HumanEval达0.0854，MMLU达0.3151 [7][56] - 强化学习阶段针对GSM8K数学题优化，性能从0.0455提升至0.0758 [7][56] 分词器优化 - 自定义分词器词汇表大小65,536 tokens，训练集包含2B字符，训练时间仅1分钟，压缩比达4.8 [25][26] - 相比GPT-2分词器（50257 tokens），在新闻文本（+7.2%）、代码（+14.6%）、科学内容（+12.3%）压缩效率更优 [27] - 在FineWeb数据集上压缩效率以微弱优势超越GPT-4分词器（100,277 tokens） [27] 社区影响与扩展性 - 项目发布后GitHub Star数迅速飙升至4.8k，被评价为"可被理解的智慧" [14] - 支持通过调整深度参数探索模型系列，深度26时CORE指标可达0.25，接近GPT-2性能 [61] - 项目具备成为研究工具框架或基准测试工具的潜力，所有模块可在社区进一步优化 [13][59]

大语言模型

大语言模型

CoreWeave：一场价值数万亿美元的盛宴

36氪· 2025-10-15 00:29

行业趋势：AI向自主智能体演进 - 大语言模型与强化学习的融合正加速催生能自主决策和执行任务的自主智能体系统[1] - AI范式正从静态模型转向智能体模型，智能体决策对算力与基础设施复杂度的要求远超传统静态推理[9] - 智能体AI经济消耗的算力将是传统静态推理的数个数量级，一次决策可能调用数百次模型前向计算[6] - 全球数据中心的算力支出规模有望从当前的数百亿级跃升至万亿级，突破速度将远超多数人预期[7] 公司战略定位：从算力供应商到智能体运行平台 - 公司定位为真正能满足强化学习主导型未来需求的核心云服务商，布局AI基础设施的智能体阶段[1] - 通过收购OpenPipe获得强化学习工具包，向价值链上游突破，掌握智能体训练核心技术并打通全流程[2] - 从硬件层加API接口质变为智能体全周期支持平台，整合任务推进引擎、记忆模块、奖励评估系统等形成一站式解决方案[3] - 核心目标是将智能体专属需求深度嵌入自身基础设施，满足高吞吐量系统互联、高速内存、回滚架构等全新要求[5] 财务与运营表现 - 季度销售额同比激增200%，达到约12.1亿美元[8] - 已签约的履约义务订单储备接近300亿美元，且无论同比还是环比都保持高速增长[8] - 季度营业利润为正但规模有限，净利润仍为亏损，主要因业务扩张投入，是高速扩张期企业的典型表现[8] - 公司已与主要客户扩大合作协议，并新增了数据中心设施，可见的需求增长与设施扩张为其切入智能体基础设施赛道提供支撑[8] 竞争优势与增长驱动 - 在电力供应、散热效率与GPU资源获取上，相比超大规模云厂商具备持久竞争优势[1][7] - 自研强化学习工具与运行时服务将显著扩大利润率，智能体调度服务的利润率将远超单纯的硬件租赁[4][10] - 智能体运行调度服务让公司能从整个决策循环中捕获更多价值，技术整合度与低延迟保障构成先发优势[9] - 客户的切换成本持续上升，当客户将核心系统部署在平台后，迁移成本极高且伴随巨大风险，增强了竞争壁垒[10] 市场潜力与估值前景 - 到2030年，若有1亿专业人士与企业依赖智能体AI系统，平均每天执行5000次推理计算，年化算力支出将达1.8万亿美元[9] - 公司合理估值区间为800-1000亿美元，若强化学习训练需求加速增长，企业价值可能接近1200亿美元[13] - 估值重估的核心驱动因素是强化学习平台的变现速度，平台收入增长越快，估值溢价空间越大[13] - 随着营收结构向强化学习工具链倾斜，合理估值区间有望逐步扩大，智能体技术的普及速度超预期将释放更大估值弹性[13]

CoreWeave Inc-A(US:CRWV)

自主智能体

大语言模型

Cloud Computing

自研强化学习工具与运行时服务

强化学习工具包

自主智能体

大语言模型

Cloud Computing

自研强化学习工具与运行时服务

强化学习工具包

中金 | 大模型系列（5）：大语言时序模型Kronos的A股择时应用

中金点睛· 2025-10-14 23:40

时序基础模型（TSFM）概述 - 时序基础模型（TSFM）核心理念是通过在规模庞大、领域多样的时序数据语料库上进行预训练，构建通用的、与任务无关的模型，能够以少量甚至无需额外训练的方式适应各种下游任务 [2][6] - TSFM的根本优势在于其泛化能力和迁移学习能力，通过在上万亿个时间点上学习，能够捕捉普适性的时间模式、趋势和季节性规律 [2][6] - 这种零样本学习的新模式对于金融领域尤为重要，当面对新上市的金融工具或数据记录有限的新兴市场时，传统模型因数据稀疏而难以获得较好的训练效果 [2][6] - 时序基础模型的演化将简化金融领域时序预测任务的推理流程，节省预训练阶段的时间、计算资源以及人力成本，加速从数据到决策端的转化过程 [7] Kronos模型核心方法与架构 - Kronos是清华大学团队开发的专为金融K线数据设计的统一、可扩展的预训练框架，采用“领域预训练+微调”的范式，深度挖掘并理解金融市场的数据特征 [3][9] - 模型框架包含两个核心阶段：K线分词（K-line Tokenization）和自回归预训练（Autoregressive Pre-training） [9][12][13] - K线分词阶段通过特化分词器、分层量化和由粗到精的令牌结构，将连续、多维的金融市场数据转化为离散的、结构化的“语言” [12] - 自回归预训练阶段采用仅解码器的Transformer架构，进行分层预测目标训练，首先生成对市场主要趋势的预测，然后在此基础上进行精细化调整 [13][15] - 模型专门构建了高质量的金融数据库进行预训练，覆盖股票、加密货币、期货、外汇等多种资产类别和从1分钟到周线等7种不同时间频率 [16] Kronos模型性能表现 - 在价格序列预测任务中，Kronos的RankIC指标比领先的通用TSFM高出93%，比表现最好的非预训练专用模型高出87% [17] - 在波动率预测任务中，平均绝对误差（MAE）降低了9% [17] - 在合成K线数据生成任务中，生成数据的保真度和实用性方面提升了22% [17] - 在中国A股市场的回测中，由Kronos预测信号驱动的投资组合取得了最高的年化超额回报和信息比率 [17] - 官方公布了四个模型版本，参数量从4.1M到499.2M不等，其中前三个模型已开源 [16] Kronos在A股指数的预测表现 - 在2025年1月至9月的测试区间内，Kronos标准版对未来5个交易日收盘价的预测与真实序列保持较高一致性，平均斯皮尔曼相关系数为0.78，绝对误差均值为6.17 [4][20] - 模型在大市值指数中的表现优于小市值指数，沪深300指数未来5条预测序列的平均相关性为0.92，绝对误差均值为90.28，而中证1000指数平均相关性为0.85，绝对误差均值为306.03 [21] - 在价值指数上的预测表现优于成长指数，价值指数未来5条预测序列的平均相关性为0.92，收益率序列的平均相关性为0.20 [21] - 预测性能随预测期限延长而递减，但对第5个交易日的预测仍保持较高准确性 [20][22] 标准版Kronos择时策略效果 - 利用Kronos预测中证1000指数第5日收盘价构建择时策略，当预测收益率超过0.5%时产生做多信号 [30][31] - 策略采用T-1日收盘后生成信号，T日开盘建仓，固定持仓5个交易日，满仓操作 [31] - 标准版Kronos择时总体获得正收益，但错过了2025年7月以来的大部分涨幅，原因为模型较为依赖前期的指数反转逻辑 [4][33] 微调版Kronos滚动择时系统 - 采用模型参数微调和滚动调整推理参数并行的方案，引导Kronos适应指数的价格分布和变化特性 [4][34] - 参数微调使用中证1000指数成分股2010年至2022年的日度价量数据集，验证集为2023年至2024年 [37] - 滚动搜参方案以1个月为滚动测试集区间，对温度参数T、核采样概率top_p和回看窗口lookback_window进行网格搜索 [37][38] - 优化后模型在中证1000指数上的预测性能显著提升，未来5日收盘价预测序列与真实序列间的斯皮尔曼相关系数由0.732提升至0.856，绝对误差均值由435.2下调至275.5 [4][39] - 使用优化后的Kronos模型构建择时策略，2025年收益率达33.9%，相对于指数本身的年化超额收益达到9%，较原方法收益率提升20个百分点以上 [5][42]

时序基础模型

大语言模型

时序基础模型

大语言模型

史上最全robot manipulation综述，多达1200篇！八家机构联合发布

自动驾驶之心· 2025-10-14 23:33

文章核心观点 - 人工智能正以前所未有的速度从"会说"迈向"会做"，具身智能成为连接认知与行动的关键前沿，机器人操作在其中扮演核心角色[5] - 该综述论文使用17张图、15张表格、超1000篇参考文献，系统梳理了机器人操作领域的全景图谱，提出了统一的理解框架[6] - 论文扩展了传统的"高层规划—低层控制"划分，高层规划纳入语言、代码、运动、可供性与三维表示，低层学习控制提出基于训练范式的新分类法[9][11] 机器人操作研究演进 - 从早期的规则控制与运动规划，发展到如今融合强化学习、模仿学习与大模型的智能控制体系，经历范式转变[6] - 控制范式从基于经典算法（如RRT、MPC）演进到基于学习的方法（如强化学习/模仿学习）[15] - 硬件沿革从机械手、机械臂发展到移动机器人平台[15] 研究框架与分类体系 - 提出统一的高低层控制框架：高层规划涵盖任务规划、语言、代码、运动、可供性和3D表示[14][21] - 低层学习控制采用三层结构分类：输入建模、潜表征学习和策略学习[22][24] - 系统总结了机器人操作面临的两大核心瓶颈：数据采集与利用、系统泛化能力[27] 数据集与仿真平台 - 梳理了多种仿真器与基准，包括MetaWorld、Franka Kitchen、RLBench等平台，支持50-1000+任务数量[16] - 数据集类型涵盖抓取数据集、轨迹数据集、具身问答与功能可供性数据集等[16] - 例如CALVIN数据集包含40M演示，Maniskill2包含2144物体和20任务[16] 操作任务分类 - 将操作任务分为抓取、基础操作、灵巧操作、软体机器人操作、可变形物体操作、移动操作、四足机器人操作和人形机器人操作等8类[17][19] - 各任务类型有明确技术定义，如抓取狭义定义为机器人生成抓取位姿，灵巧操作通过多指手实现精确物体控制[17] - 基础操作指单臂或双臂在桌面场景执行的简单任务（如拾放、分拣）[17] 未来研究方向 - 构建真正的"机器人脑"，实现通用认知与控制[35] - 打破数据瓶颈，实现可扩展的数据生成与利用[35] - 强化多模态感知，提升与复杂物体的交互能力[35] - 确保人机共存安全，推动机器人走向真实世界[35]

机器人操作

大语言模型

多模态模型

机器人操作

大语言模型

多模态模型

AI大语言模型如何带来内存超级周期？

傅里叶的猫· 2025-10-14 15:51

AI推理工作负载驱动的内存需求变化 - 过去AI基础设施需求主要由大模型训练驱动，但现在推理工作负载正越来越占据主导地位 [4] - 推理过程复杂，涉及从存储加载模型至内存、KV缓存溢出时卸载到存储、以及RAG查询外部数据等环节 [4] AI服务器的内存层次与数据流动 - 典型GPT查询过程涉及HBM、系统DRAM和NVMe NAND闪存三个主要内存层次 [5][6] - 数据流动始于请求到达服务器，若模型未加载则从NVMe SSD读取权重至HBM/DRAM，随后进行Prefill阶段和Token生成 [5][6][7] - 若启用RAG，还需从通常位于NVMe SSD的向量数据库中检索相关上下文 [7] GPT-5推理对各类内存的具体需求估算 - HBM需求主要来自模型权重静态内存和KV缓存动态内存，估算GPT-5推理总需求约为26.8 PB [8][10] - DRAM需求主要来自KV缓存，假设条件下估算2025年GPT-5产生9.13 EB需求，2026年可能翻倍至18.26 EB [8] - NAND需求主要来自RAG，估算2025年GPT-5产生200 EB需求，2026年可能翻倍至400 EB [8] AI推理需求与行业供给对比及市场影响 - 对比行业供给，GPT-5的DRAM和NAND需求在2025年将分别占全球供给的25%和22%，2026年占比将升至43%和39% [9] - 需求集中在下半年可能导致Q3末开始出现供给短缺和价格上涨，传统约20%的年增产率将导致严重短缺，可能形成持续数年的超级周期 [9] - NAND市场因AI推理需求（如用于近线SSD）从供过于求转向缺货，云服务商提前至8月谈判明年订单，需求强度超预期 [11] - NAND价格预计2025年Q4上涨近10%，2026年上半年可能再涨15-20% [11] 产业链相关公司分析 - KIOXIA作为纯NAND厂商对涨价弹性最大，但负债高和日元升值是风险 [12] - SanDisk是消费级SSD龙头，企业级业务在增长，其每股收益在牛市可能超过10美元 [12][13] - 三星和SK海力士能同时受益于HBM和NAND需求，实现AI内存全覆盖，但估值已部分反映利好 [12] - 模组厂如群联和江波龙作为中间商，利润取决于价差，但没有晶圆制造能力 [12] - 一家未具名公司是DRAM和NAND芯片下方BT基板材料的独家供应商，拥有100%市场份额 [9]

大语言模型

内存超级周期

大语言模型

内存超级周期