大语言模型 - 财报，业绩电话会，研报，新闻 - Reportify

大语言模型

搜索文档

AI大语言模型如何带来内存超级周期？

傅里叶的猫· 2025-10-14 15:51

AI推理工作负载驱动的内存需求变化 - 过去AI基础设施需求主要由大模型训练驱动，但现在推理工作负载正越来越占据主导地位 [4] - 推理过程复杂，涉及从存储加载模型至内存、KV缓存溢出时卸载到存储、以及RAG查询外部数据等环节 [4] AI服务器的内存层次与数据流动 - 典型GPT查询过程涉及HBM、系统DRAM和NVMe NAND闪存三个主要内存层次 [5][6] - 数据流动始于请求到达服务器，若模型未加载则从NVMe SSD读取权重至HBM/DRAM，随后进行Prefill阶段和Token生成 [5][6][7] - 若启用RAG，还需从通常位于NVMe SSD的向量数据库中检索相关上下文 [7] GPT-5推理对各类内存的具体需求估算 - HBM需求主要来自模型权重静态内存和KV缓存动态内存，估算GPT-5推理总需求约为26.8 PB [8][10] - DRAM需求主要来自KV缓存，假设条件下估算2025年GPT-5产生9.13 EB需求，2026年可能翻倍至18.26 EB [8] - NAND需求主要来自RAG，估算2025年GPT-5产生200 EB需求，2026年可能翻倍至400 EB [8] AI推理需求与行业供给对比及市场影响 - 对比行业供给，GPT-5的DRAM和NAND需求在2025年将分别占全球供给的25%和22%，2026年占比将升至43%和39% [9] - 需求集中在下半年可能导致Q3末开始出现供给短缺和价格上涨，传统约20%的年增产率将导致严重短缺，可能形成持续数年的超级周期 [9] - NAND市场因AI推理需求（如用于近线SSD）从供过于求转向缺货，云服务商提前至8月谈判明年订单，需求强度超预期 [11] - NAND价格预计2025年Q4上涨近10%，2026年上半年可能再涨15-20% [11] 产业链相关公司分析 - KIOXIA作为纯NAND厂商对涨价弹性最大，但负债高和日元升值是风险 [12] - SanDisk是消费级SSD龙头，企业级业务在增长，其每股收益在牛市可能超过10美元 [12][13] - 三星和SK海力士能同时受益于HBM和NAND需求，实现AI内存全覆盖，但估值已部分反映利好 [12] - 模组厂如群联和江波龙作为中间商，利润取决于价差，但没有晶圆制造能力 [12] - 一家未具名公司是DRAM和NAND芯片下方BT基板材料的独家供应商，拥有100%市场份额 [9]

大语言模型

内存超级周期

大语言模型

内存超级周期

蚂蚁发布并开源万亿参数思考模型Ring-1T

新京报· 2025-10-14 04:20

公司产品发布 - 蚂蚁集团于10月14日正式推出万亿参数思考模型Ring-1T并全面开源模型权重和训练配方 [1] - 新模型在9月30日开源的预览版基础上扩展了大规模可验证奖励强化学习训练以激发推理能力并通过RLHF训练完善通用能力 [1] - 用户可通过HuggingFace和魔搭社区下载模型并通过蚂蚁百宝箱等平台在线体验 [1] 公司产品矩阵与发展阶段 - 蚂蚁百灵大模型已累计发布18款模型形成从160亿总参数到1万亿总参数的大语言模型产品矩阵 [1] - 产品矩阵中包含两款万亿参数模型分别为万亿参数通用大语言模型Ling-1T和万亿参数思考模型Ring-1T [1] - 随着两款万亿参数模型的发布百灵大模型正式步入2.0阶段 [1]

大语言模型

蚂蚁百灵大模型

Ring-1T-preview

大语言模型

蚂蚁百灵大模型

Ring-1T-preview

史上最全robot manioulation综述，多达1200篇！西交，港科，北大等八家机构联合发布

具身智能之心· 2025-10-14 03:50

文章核心观点 - 具身智能是人工智能迈向通用智能的关键前沿，其核心在于机器人操作技术，该技术正经历从基于规则到融合大语言模型和多模态模型的范式转变 [3][4] - 一篇由多机构学者联合撰写的综述论文系统性地梳理了机器人操作领域，提出了统一的理解框架，涵盖硬件基础、任务数据、控制框架及泛化研究，旨在推动机器人从“执行任务”到“理解与学习任务”的演进 [4][6][7] 机器人操作领域综述概览 - 该综述使用17张图、15张表格和超1000篇参考文献，构建了机器人操作的全景图谱，内容覆盖硬件与控制基础、任务与数据体系、高低层控制框架及跨本体与跨模态的泛化研究 [4][6] - 论文扩展了传统的“高层规划—低层控制”框架，高层规划纳入语言、代码、运动、可供性与三维表示，低层学习控制则提出基于训练范式的新分类法，包含输入建模、潜表征学习和策略学习三个核心部分 [6][9][13] 机器人硬件与控制范式演进 - 机器人硬件从机械手、机械臂发展到移动机器人平台，控制范式从基于经典算法（如RRT、MPC）演进到基于学习的方法（如强化学习/模仿学习） [14] - 机器人模型的分类方式及其验证流程构成了评估体系，反映了领域技术栈的成熟度 [14] 仿真器、基准与数据集 - 综述整理了多个主流仿真器与基准，例如MetaWorld（80物体、50任务）、CALVIN（40M演示数据）、Maniskill2（2144物体、20任务）等，覆盖从基础操作到灵巧操作、移动操作等多种任务类型 [15][18] - 数据集类型包括抓取数据集、单/跨具身仿真器基准、轨迹数据集及具身问答数据集，支持多样化的机器人操作研究与验证 [17] 高层规划与低层控制框架 - 高层规划被扩展至语言、代码、运动、可供性和3D表示，凸显其在语义决策中的作用，例如通过大语言模型生成任务计划或代码 [21][24] - 低层学习控制提出三层结构分类法：输入建模（处理输入数据）、潜表征学习（构建可迁移表示）、策略学习（生成精准动作），为控制策略研究提供系统化视角 [22][23] 机器人操作核心瓶颈 - 领域面临两大瓶颈：数据采集与利用（涉及人类示教、合成数据生成、众包收集等途径）以及系统泛化能力（包括环境、任务和跨具身泛化） [27][28] - 数据利用方法涵盖数据扩展、选择重加权、检索与增强技术，而泛化挑战的解决方案旨在提升机器人对未知场景的适应能力 [27][28] 未来研究方向 - 未来重点方向包括构建通用“机器人脑”实现认知与控制、突破数据瓶颈以 scalable 生成利用数据、强化多模态感知提升复杂物体交互、确保人机共存安全推动真实世界应用 [32][34]

机器人操作

大语言模型

多模态模型

机器人操作

大语言模型

多模态模型

卡帕西8000行代码手搓ChatGPT，成本仅100美元，训练12小时CORE表现超越GPT-2，手把手教程来了

36氪· 2025-10-14 03:40

项目概述 - 项目nanochat是一个极简、从零开始构建的全栈训练/推理pipeline，用最少量依赖的单一代码库实现了简易版ChatGPT [1] - 项目整体约8000行代码，基于Rust语言实现，可实现训练分词器、预训练大语言模型、指令微调、强化学习及高效推理等功能 [2] - 在8×H100 GPU上训练约4小时，整体成本仅需约100美元，即可训练出一个可进行基础对话、创作故事诗歌、回答简单问题的模型 [1][2] 技术架构与流程 - 训练流程始于在FineWeb-EDU数据集上预训练Transformer架构模型，该数据集被重新打包为简单、完全打乱的分片，总计约24GB [15][16] - 项目训练了自定义分词器，词汇表大小为65,536个tokens，在训练集包含2B字符上训练约1分钟，实现了约4.8的压缩比 [16][18] - 预训练后进行了中期训练，在SmolTalk对话数据集和多项选择题数据集上微调，使模型适应对话格式并理解多选题机制，此过程约8分钟 [35][36][37] - 随后进行监督微调（SFT）以提升对话质量，并可选地进行强化学习（RL）训练，针对GSM8K数学数据集使用简化的GRPO算法优化模型答案正确率 [41][46][48] 性能表现 - 模型在预训练后CORE指标达到0.2219，略高于GPT-2 large（0.21）但略低于GPT-2 xl（0.26） [3][32] - 经过中期训练和监督微调后，模型在多项基准测试上表现提升：ARC-Easy从0.3561提升至0.3876，GSM8K从0.0250提升至0.0455，HumanEval从0.0671提升至0.0854 [3][52] - 进行强化学习训练后，模型在GSM8K数据集上的表现进一步提升至0.0758 [3][52] - 训练深度为30的模型24小时后（算力消耗为GPT-3的千分之一），在MMLU数据集上可达40多分，在ARC-Easy上达70多分，在GSM8K上达20多分 [6] 项目特点与影响 - 项目代码完全手写，作者尝试使用AI编程助手但效果不佳，最终产出约8000行代码，旨在提供统一、极简、易读、可修改的技术栈 [9][7] - 项目作为LLM101n课程的压轴项目，有潜力发展为研究工具框架或基准测试工具，类似之前的nanoGPT项目 [7] - 项目发布后迅速获得社区关注，GitHub Star数飙升至4.8k，被评论为具有高教育价值和可理解智慧 [8] 成本与效率 - 使用云服务（如Lambda GPU Cloud）启动一台8卡H100服务器，每小时成本约24美元，总训练时间约4小时，成本约100美元 [10][53] - 若将成本提升至约1000美元（训练约41.6小时），模型表现显著提升，能解决简单的数学/代码问题及多项选择题 [4] - 到监督微调阶段为止的总用时为3小时51分钟，总成本约为92.4美元 [53]

大语言模型

Artificial Intelligence

大语言模型

Artificial Intelligence

卡帕西8000行代码手搓ChatGPT，成本仅100美元，训练12小时CORE表现超越GPT-2，手把手教程来了

量子位· 2025-10-14 02:19

项目概述 - Andrej Karpathy发布名为nanochat的极简全栈项目，旨在从零开始构建简易版ChatGPT [1] - 项目核心目标是以约100美元成本在8×H100 GPU上训练4小时，复刻基础对话功能的模型 [4] - 整个代码库约8000行，基于Rust语言实现，包含训练分词器、预训练、中期训练、指令微调等完整流程 [4][5] 技术架构与流程 - 采用Transformer架构，在FineWeb-EDU数据集上预训练，使用自定义分词器（词汇量65,536）实现约4.8的文本压缩比 [5][25][26] - 训练流程分为预训练（BASE）、中期训练（MID）、监督微调（SFT）和强化学习（RL）四个阶段 [5][45][48][51] - 推理引擎支持KV缓存、预填充/解码流程及工具使用（如Python解释器），提供CLI和类ChatGPT的WebUI交互界面 [5][43] 性能表现 - 预训练模型CORE指标达0.2219，超越GPT-2 large（0.21）但略低于GPT-2 xl（0.26） [7][41] - 经过中期训练和监督微调后，模型在多项基准测试中提升：ARC-Easy从0.3561升至0.3876，GSM8K从0.0250升至0.0455 [7][56] - 强化学习阶段针对GSM8K数学题优化，性能进一步提升至0.0758，总训练耗时3小时51分钟，成本约92.4美元 [7][53][56][57] 可扩展性与社区影响 - 项目设计为可调优框架，用户可通过修改深度参数（如depth=30）探索更大模型，预期在MMLU和ARC-Easy分别达40多分和70多分 [10][61] - 代码库强调易读性和可修改性，已获GitHub 4.8k星关注，被社区评价为“可被理解的智慧” [11][13][14] - nanochat将作为Karpathy教育项目LLM101n课程的压轴内容，推动AI教育普及 [12][75]

大语言模型

Artificial Intelligence

大语言模型

Artificial Intelligence

拒绝“熵崩塌”和“熵爆炸”！这项研究让大模型学会“精确探索”，推理成绩飙升

量子位· 2025-10-13 08:47

RLVR方法的重要性与当前瓶颈 - 2024年以来以OpenAI o1、DeepSeek-R1、Kimi K1、Qwen3等为代表的大模型在数学、代码和科学推理任务上取得显著突破主要得益于RLVR方法[1] - RLVR通过数学验证、单元测试等可自动判断对错的方式提供训练信号替代了传统依赖人类评判的流程使模型能够进行大规模高效率的自我改进[1] - RLVR在实践中面临探索机制极易失衡的关键瓶颈要么探索受限陷入熵崩塌要么探索失控引发熵爆炸[2] 传统熵正则化方法的困境 - 传统熵正则化方法在RLVR训练中面临两难陷阱探索强度系数β过小会导致探索受限发生熵崩塌模型迅速退化为近似确定性策略所有回答高度相似[9] - 当β稍大时模型易在庞大的动作空间与超长的推理轨迹中失控概率分布被摊平导致熵爆炸生成内容充斥无意义符号逻辑断裂[10] - 传统方法失效的根本原因是熵正则化的激励是无差别的而大语言模型的生成过程具有鲜明的结构性忽略了探索价值的非均匀分布[10] SIREN方法的创新机制 - 选择性熵正则化方法通过三重机制实现对探索行为的精准调控包括划定探索范围识别关键决策点稳定训练过程[14] - Top-p掩码机制将熵的计算范围严格限定于概率最高的核心token集合确保探索仅在语义合理的候选词中进行避免无效探索[14][15] - 峰值熵掩码机制自动识别生成序列中熵值显著高于平均水平的逻辑关键词并将探索激励集中作用于这些关键位置[16] - 自锚定正则化将熵值目标从最大化调整为维持合理区间通过动态锚定机制使探索强度始终处于可控范围避免训练失稳[17] SIREN方法的实验效果 - 在Qwen2.5-Math-7B上SIREN平均maj@k达到54.6%超越最强基线4.8%[22][24] - 在最具挑战的AIME24/25数据集上性能提升均达到6.6%[34] - 该方法在1.5B到8B不同规模不同基座的模型上均稳定有效展现出良好的泛化能力[34] - 与传统的熵正则方法相比SIREN展现出更合理有效的探索模式能够避免困惑度坍缩保持答案多样性训练过程平稳可控[25][28][30] 行业影响与未来展望 - 随着强化学习成为大模型后训练的主流方法如何实现稳定可控高效的探索将成为释放大模型潜力突破性能瓶颈的核心议题[35] - 该研究提出的选择性探索调控机制为探索的精细化提供了一种可行的解决方案有望为下一代推理模型的训练范式提供启发[35] - 该方法有望推动大模型在数学代码科学推理等复杂任务以及其他更广阔的应用领域取得进一步突破[35]

大语言模型

RLVR（基于可验证奖励的强化学习）

选择性熵正则化

Artificial Intelligence

大语言模型

RLVR（基于可验证奖励的强化学习）

选择性熵正则化

Artificial Intelligence

马斯克AI公司开发“世界模型”，从英伟达挖专家将推游戏

凤凰网· 2025-10-13 03:21

公司战略与进展 - xAI公司正加紧构建能够理解现实世界动态特征的“世界模型”，旨在实现对物理环境的自主导航与设计 [1] - 公司计划将世界模型应用于游戏领域，用于生成可交互的3D环境，并计划在明年年底前推出一款由AI生成的优秀游戏 [1][2] - xAI已从英伟达聘请了两位具备世界模型研发经验的AI研究员泽尚·帕特尔与何宜晖，以加强研发能力 [2] - 公司于近期推出了最新的图像和视频生成模型，并进行了重大升级，且免费向用户开放使用 [2] 技术定义与潜力 - 世界模型是一种生成式AI模型，能利用文字、图像、视频以及动作等输入数据来生成影片，其核心是理解现实世界的物理属性和空间特性 [1] - 世界模型通过学习视频以及来自机器人的数据来理解现实世界，有望将AI能力提升到超越大语言模型的水平 [1] - 与OpenAI的Sora等逐帧生成视频的模型不同，世界模型能实时理解物理世界的因果关系，掌握物体在不同环境中的实时互动机制 [2] - 世界模型被认为能将AI应用从软件和计算机拓展到实体产品，例如人形机器人，其潜在市场规模可能接近当前全球经济总量 [2] 行业竞争格局 - 除xAI外，谷歌、Meta等领先的AI实验室也在研发世界模型系统 [3] - 英伟达凭借其能够创建并运行模拟环境的Omniverse平台，在该技术领域保持领先地位 [2] 行业面临的挑战 - 世界模型的研发面临巨大技术挑战，要找到足够的数据来模拟现实世界并训练这些模型被证明既困难又成本昂贵 [3] - 有行业观点指出，游戏行业面临的重大问题并非技术，而是领导力与远见的缺失，更需要能让玩家投入的世界呈现方式，而非算法生成的玩法循环 [3]

英伟达(US:NVDA)

大语言模型

大语言模型

专访 AirPods 团队：一只小小的耳机，如何学会追踪 50 种运动？

36氪· 2025-10-13 02:31

产品技术突破 - AirPods Pro 3的心率监测精度达到与专业级Garmin HRM600胸带几乎重合的水平，尤其在稳态跑和间歇跑等高精度要求场景下表现优异[1] - 产品采用红外光PPG方案，每秒脉冲约250–256次红外光，结合IMU数据消除运动伪影，实现多模态数据协同[7] - 耳机能在播放音乐的同时实时监测心跳频率、步伐节奏，并自动识别超过50种运动类型[3][14] 生理监测优势 - 耳道因靠近颞浅动脉、血流灌注稳定且无光线干扰，成为比手腕更理想的生理信号采集点[5] - 美国学术论文指出耳道PPG信号在血管分布、抗运动干扰和环境光抑制方面优于腕部与指端[7] - 在力量训练、划船等手部活动场景下，腕部设备心率数据易受干扰，而耳道信号更加连贯稳定[7][9] 算法与系统集成 - 心率算法基于Apple Watch十年积累的神经网络模型开发，并针对耳道特性进行小型化适配和微调[10] - 当用户同时佩戴Apple Watch和AirPods Pro 3时，系统会在最近5分钟内自动选择更可靠的心率信号源[8] - 通过Apple Heart and Movement Study约5000万小时的真实运动数据，训练出可理解动作语法的基础模型[15] 传感器生态与验证 - AirPods Pro 3内置加速度计、陀螺仪和心率传感器，与iPhone的GPS、气压计形成协同感知系统[15] - 实验室采用代谢面罩观测氧气交换率验证卡路里模型，并通过标定跑步机和压力传感器校准步态数据[16] - 通过优化耳塞贴合度与自适应调音算法，在提升声学体验的同时保障生理监测数据的准确性[10][11] 战略定位 - 产品设计延续技术回归感知的哲学，使耳机从声音输出设备转变为双向感知界面[17] - Apple Watch与AirPods Pro 3在不同运动场景下形成互补关系，共同构建身体数字镜像[9] - 动作识别能力通过基础模型一次性实现50余种运动追踪，较Apple Watch的迭代效率显著提升[15][16]

苹果(US:AAPL)

大语言模型

大语言模型

全球AI数据视角看机器人市场

2025-10-13 01:00

行业与公司 * 涉及的行业为人工智能与机器人行业，具体公司包括美国的Figure、特斯拉以及中国的宇树、淘淘车业、科沃斯等[1][5][6][9] 核心观点与论据 AI产业处于早期且潜力巨大 * AI产业仍处于早期阶段，Transformer模型及其衍生技术仍在持续推进[1][3] * 各大厂商在AI上的投资规模已达数百亿至千亿美元级别，并已开始产生收入，形成良性循环[1][3] * 硅谷创业与创投活动活跃，表明该领域仍有大量潜力可供发掘[1][3] * AI相关算力占总用电量和装机功率比例不到1%，在总体经济中占比小，增长空间大[1][4] * 训练与推理算力比例为1:1，表明当前仍处于早期投入阶段，产出应远大于投入[1][4] 机器人作为AI应用正加速发展 * 机器人作为AI应用的一部分，正处于加速发展的基点[1][5] * Figure公司已开始量产机器人，计划未来四年建设10万套产能，标志着进入量产阶段[1][5] * 特斯拉三代机器人也即将推出[5] 北美市场机会优于中国 * 美国科技大厂年均资本支出约270至680亿美元，带来的收入ROI约40%至50%[6] * 中国大厂年均资本支出150亿美元，但ROI远低于美国，仅有10%左右[6] * 应更多关注北美市场机会以提升回报率[1][6] AI发展推高通胀并利好机器人替代 * 美国AI产业高速增长导致AI相关人员工资非理性上涨[1][7] * 人工成本上升促使企业更倾向于使用性价比更高的AI技术进行替代，形成ROI正循环，推动AI投资热潮[1][7] * 工资上涨蔓延到消费品价格，加速通胀，在这种环境下AI替代人力更加有利可图[1][7][10] * 美国工资至少是中国的五六倍，而硬件成本基本相同，使得机器人在美国市场具有更高性价比[8] * 美国消费者对高价科技产品接受度高，2万美金甚至4万美金的机器人也能销售良好[8][10] 具体投资标的与市场预期 * 在美国市场建议关注两类公司：直接买气链公司（如淘淘车业、科沃斯）和在北美打开市场的中国公司（如宇树）[1][6][9] * 这些公司通过亚马逊等渠道进入海外市场，其海外场口和链条拉动能力可能带来增量新逻辑[1][9] * 未来几年新能源车及机器人市场规模预期乐观，机器人领域第一批1万台、10万台落地节点后，整体天花板高度随技术上移[12] * 到2025年，新能源车销量预计将从初期的10万台达到1,000万台以上[12] * 美国公司每年平均投入600亿美金用于AI，到2030年可能达到每家公司1,000亿以上，将推动白领到蓝领工人的替代浪潮，提升机器人板块潜力[10][11] 其他重要内容 * 美国市场对科技产品消费意愿强烈，利好机器人和电动车行业，例如曹操车业的电动车主要面向追求科技感的新型社区用户[8]

机器人(SZ:300024)

Transformer 模型

大语言模型

第三代机器人

Transformer 模型

大语言模型

第三代机器人

吴恩达Agentic AI新课：手把手教你搭建Agent工作流，GPT-3.5反杀GPT-4就顺手的事

量子位· 2025-10-12 04:07

Agentic AI核心概念与方法论 - Agentic AI通过多步骤任务分解、反思、执行与优化的循环工作流显著超越传统端到端Agent的性能表现[5][6][74] - 核心理念是让大语言模型以多步推理与分阶段执行的方式工作而非一次性生成结果这与人类解决复杂问题的方式高度契合[9][14] - 通过系统化的工作流设计甚至可以让GPT-3.5在编程任务中轻松超越GPT-4的性能表现[3][75] Agentic工作流四大核心设计模式 - **反思模式**：让大模型检视自身输出并思考改进可通过双模型协作、量化评分机制或引入外部反馈（如参考答案）来提升输出质量[18][21][24][27] - **工具调用模式**：由大语言模型自主决定调用外部功能（如网页搜索、编写代码）传统方式依赖开发者手动实现而MCP等统一协议将其标准化极大提升效率[28][29][38][43] - **规划模式**：使大模型能根据不同请求灵活调整工具序列执行顺序通过将步骤转化为JSON或代码形式实现任务离散化从而优化性能与资源使用[45][46][47] - **多智能体协作模式**：构建多个具备不同专长的智能体通过结构化分工协作（类似企业组织架构）提升复杂任务的处理效率与质量并可实现智能体间的嵌套调用[51][52] Agentic系统构建与优化流程 - 构建流程遵循"采样-评估-改进"的闭环迭代：先搭建工作流收集输出然后进行端到端或组件级评估定位错误最后针对性优化参数、工具或提示词[55][58][59] - 错误分析是关键通过追踪中间执行轨迹定位薄弱环节（如工具调用或识别模块问题）组件级评估能更快速精准地指导系统改进[61][63][64][67] - 模型选择与优化需多尝试不同模型参考他人提示词设计并将模型置于工作流中观察各步骤表现以持续提升系统可靠性[68][69][70] Agentic AI的行业意义与发展前景 - Agentic被定义为描述系统自主性程度的形容词而非二元分类这为开发者提供了更连续、准确的能力评估框架[72] - 与传统端到端Agent相比Agentic AI通过组件拆分和逐步优化使每个环节可迭代改进为开发者提供了可落地的系统优化路径而非仅依赖模型自身能力提升[76][77][78] - 除成熟代码Agent外基于步骤的Agentic AI在复杂多步骤工作流领域仍有广阔发展空间为行业探索更智能、可控的AI系统提供方法论支持[79][80]

大语言模型

智能体开发

吴恩达Agentic AI新课

大语言模型

智能体开发

吴恩达Agentic AI新课