预训练 - 财报，业绩电话会，研报，新闻

预训练

搜索文档

36氪· 2025-05-28 11:59

AI技术发展路径的共识与非共识 - 预训练技术从2023年的行业共识到2025年面临质疑，OpenAI前首席科学家公开认为"预训练已走到尽头"，而DeepSeek R1等强化学习模型崛起[1] - 蚂蚁集团技术开放日圆桌讨论显示，行业分化成两派：曹越、孔令鹏等通过跨架构创新（如语言模型应用Diffusion、视频模型采用自回归）实现突破，阿里则坚持Transformer等传统路径[3][4][14] - 当前行业呈现多元探索态势，参与者形容为"摸彩票"，不同技术路线本质是平衡模型偏差与数据偏差的尝试[7][17][18] 主流架构的技术突破 - 扩散模型创新：Dream 7B以7B参数量超越671B的DeepSeek V3，通过双向学习处理并行任务，在数学/代码任务表现突出[3][8][17] - 视频模型革新：曹越团队将自回归应用于视频生成，突破Sora无时序先验的限制，通过编码时间关系提升信息利用率[10][11][12] - Transformer持续主导：阿里内部多次"魔改"Transformer后仍确认其最优性，但承认MOE架构在扩展性上的潜力[5][14][16] 模型优化与效率挑战 - MOE架构进展：DeepSeek实现1:20+稀疏比，阿里测试显示1:10-1:20区间效果最佳，但专家数增加会降低训练稳定性[19][20][22] - 多模态融合创新：通过Attention稀疏化提升跨模态效率，端到端优化Tokenize到联合建模的全流程[24][25][26] - 硬件制约明显：GPU对Transformer训练非最优，行业呼吁软硬一体解决方案[34][35][36] 预训练与数据应用趋势 - 预训练价值分歧：2024年认为数据枯竭是共识，2025年美国新观点认为仍有潜力，阿里证实数据增量仍能提升模型性能[38][39] - 算力驱动创新：历史显示算力增长可激活曾被放弃的技术，当前需重点优化算力利用率[40][41] - 创造本质探索：将创作定义为搜索问题，通过可能性空间遍历实现智能生成[42][43] 行业现存问题与应对 - 幻觉控制难题：强化学习可能加剧错误推理模式，阿里尝试通过稀疏自编码器(SAE)定位并抑制相关特征[30][31] - 架构选择成本：模型结构需同时兼容预训练与强化学习，当前每次技术押注成本显著上升[20][33] - 技术迭代哲学：行业进步类似飞机航道调整，需动态修正而非预测终极形态[44][45]

公元：DeepSeek只打开一扇门，大模型远没到终局 | 投资人说

红杉汇· 2025-05-11 05:09

人工智能与具身智能赛道现状 - 当前AI与具身智能赛道处于类似互联网初期的百花齐放阶段，底层技术和垂直细分领域机会众多[5] - 具身智能领域可能处于类似2018年LLM的阶段，尚未出现GPT时刻，但AGI的长期前景被普遍看好[8][9] - 行业变化极快，AI领域"一天相当于人间一年"，模型迭代速度远超传统商业模式演进速度[7] DeepSeek的影响 - DeepSeek的R1模型通过开源后训练方法论实现了"技术平权"，将全球AI研发重新拉回同一起跑线[6] - 该突破改变了国内大模型行业格局，但预训练与后训练技术仍需双轮发展，行业终局尚未确定[6] - 春节期间的技术突破导致行业认知发生剧烈变化，两个月内从"后训练重要"转向"预训练重要"[6] 投资逻辑变化 - 传统基于DAU/MAU的商业评估模式失效，用户可能因技术突破瞬间转移[7] - 投资人需要快速建立对AGI能力的感知，而非依赖传统商业指标[7] - 具身智能投资的核心逻辑是押注物理世界AGI的实现概率[9] 创业范式转变 - 新时代创业更强调技术颠覆创新而非明确商业化路线[1] - 当前创业者难以清晰描述具体应用场景，更多聚焦技术路线本身[8] - 成功要素转变为对AGI的信念而非传统商业计划[9] 行业参与者特点 - 顶级投资人需保持高度热爱和好奇心以应对快速变化的技术环境[10] - 国内大模型可能形成DeepSeek、千问和豆包三强格局的预测出现[6]

2025-05-06 02:28

纪要涉及的行业 AI算力行业纪要提到的核心观点和论据 1. **算力需求增长逻辑** - **AI应用渗透推动推理需求**：AI应用逐渐渗透到生活和工作各环节，改变使用习惯，使算力推理需求快速增长，微软、谷歌等大厂推理需求占比可能达60%-70%，主要源于老应用改造而非开发全新APP [1][2] - **细分领域仍有增长潜力**：训练环节市场预期悲观，但实际可能更好，预训练边际效应减缓，后训练增速不明显，但细分领域如AI Agent有增长潜力 [1][4] 2. **市场预期情况** - **算力产业链与AI应用分化**：从2024年5月开始，除ASIC外，算力产业链边际走弱，英伟达股价未创新高，市场对整体算力需求预期悲观；而AI应用领域表现强劲，如Palantir股价创新高，市场对AI应用预期较高 [1][5] 3. **解决算力需求问题方向** - **训练与推理两手抓**：解决算力需求青黄不接问题需关注训练和推理两方面，训练算力需求短期难提升，推理依赖Agent发展，Agent在特定场景已有所起色 [1][7] 4. **2025年算力需求来源** - **老应用改造、新衍生应用与Post Training**：2025年算力需求主要来自老应用改造（如推荐引擎在海外大厂的应用）、新衍生应用（如Agent）以及Post Training阶段，Agent面向ToB/ToD场景，特定领域需求显现 [1][12] 5. **Chatbot与Agent对比** - **应用场景与爆款潜力不同**：Chatbot面向ToC市场，易形成爆款；Agent面向ToB和ToD场景，不易成为爆款，其算力需求难被资本市场迅速感知 [13] - **任务复杂度与交互方式差异大**：Chatbot单次交互量约1000个TOKEN，一对一、一问一答式交互；Agent完成单个任务所需TOKEN量达几万甚至十万个，多任务、多Agent协作执行，消耗数据量和TOKEN数量远高于Chatbot [25] - **存储和算力需求有别**：Chatbot对存储和内存要求低；Agent执行任务各步骤需连贯操作，对存储和内存要求高，对计算能力和存储都有较高需求 [27][28] 6. **算力需求计算与评估** - **训练与推理算力需求公式**：训练算力需求预期约为6ND，推理算力需求预期约为2ND，N代表模型参数量，D代表数据集 [16] - **评估服务器或GPU卡数量**：通过总需求除以单个GPU卡的算力估算所需设备数量，同时考虑设备实际利用率 [34] 7. **模型选择与优化** - **优先选择小模型**：选择模型参数时优先考虑小模型，大厂做推理应用倾向先上小模型，降低成本，提高可接受性 [31] - **优化模型访问和推理方法**：使用低精度计算、模型蒸馏，结合硬件优化如KV缓存优化，可降低内存消耗，提高整体效率 [35] 其他重要但是可能被忽略的内容 1. **后训练情况**：后训练自2024年9月推出，对市场影响不明显，从事厂商数量有限，数据难跟踪，在模型参数量上维持在几万亿量级，虽算力需求预期不明显，但能提升推理能力，如DeepSeek R1体现后训练扩展法则 [8][9][19] 2. **AI Agent产品表现**：一些AI Agent产品如Mariner在美国市场表现良好，融资和用户增长迅速，在海外人力成本高的地区受众广泛，但在中国市场难推广 [2] 3. **大型科技公司资本开支**：微软和Meta本季度未削减资本开支，对未来算力需求持坚定态度，若后续应用进展顺利，算力规划短期内不会下降 [40] 4. **过去一季度AI应用发展**：过去一个季度多个AI应用发展迅速，如Mariner 3月月活访问量达2310万，Cursor有2000多万，微软3月产生50万亿个TOKEN，占季度总量一半 [38]

虎嗅· 2025-03-31 12:39

文章核心观点智谱在3月31日中关村论坛闭幕式现场推出新模型反击DeepSeek，同时公司在商业化布局、技术研发等方面有相应规划和思考，以应对行业变化和挑战 [2][6] 公司动态 - 3月31日智谱在智能体产品和基座模型两大维度分别推出"AutoGLM沉思模型"和推理模型GLM - Z1 - Air，Air用32B参数比肩671B的DeepSeek R1模型，价格仅为其1/30，且将于4月14日正式开源 [2] - 智谱CEO张鹏称公司在为IPO铺路但无具体计划，商业化以端侧为切口渗透七大行业，还宣布与东盟十国及“一带一路”沿线国家共建“自主大模型共建联盟” [6] - 智谱2023年开始在Agent领域投入，现阶段认为进入可大规模应用和落地阶段 [16] - 智谱会对具身智能进行相应布局，但还需时间 [19] 行业现状 - 2025年大模型圈“预训练”难成关键词，大模型六小虎中百川智能大批核心成员离职并砍掉部分业务，零一万物放弃万亿参数赛道转向B端业务 [3] - 自2025年初DeepSeek以“成本优势 + 开源”撕开市场缺口，头部云厂商依托生态优势卡位，大模型创业公司用价格力挽狂澜 [9] - 第一季度资本对大模型初创公司失去耐心，除智谱连续拿到地方产投融资，无市场化资本进入其余大模型企业 [4] - 大模型企业面临商业化难题，预训练未能让基座模型厂商形成护城河 [5][6] 对话问答开源策略与商业化 - 开源是智谱从第一天开始坚持的事，宣布2025年为开源年是考虑DeepSeek对技术生态和认知的影响，公司认为模型即服务（MaaS）会落地，开源与否不是关键问题 [12] 预训练与推理模型 - 预训练仍很重要，是RL等方法的基座模型天花板，其中预训练的架构、数据使用效率等有很多待研究点 [13] - 推理模型在泛用性任务上表现不及预期，但技术改进会产生新可能，其应用受技术发展阶段影响 [14] 融资计划 - 实现AGI路程长，从0到1开拓试错成本高，公司走在前面的部分需加大投入 [15] Agent领域 - Agent核心能力是模型本身能力和感知环境与环境智能交互能力，AutoGLM更早用于手机端，其他端侧也可接入，但存在设备交互方式和硬件适配问题 [17] 战略层面 - 公司定位技术驱动，技术研发和商业化两条腿动态调整，目前核心任务和资源投入仍侧重技术研发 [21] 落地预期 - 去年公司整体实现超100%增长，今年预计市场呈十倍以上增长，公司会保持稳定商业化落地速度和效益 [22]

Artificial Intelligence

Artificial Intelligence

推理模型GLM - Z1 - Air

戴尔第四季度预览：推理 AI 助阵，现在是买入好时机吗？

美股研究社· 2025-02-27 10:41

戴尔股价落后原因 - 自11月以来股价落后市场主要因市场担忧AI数据中心建设放缓尤其微软资本支出战略变化传闻影响[1] - 市场担忧Blackwell支持的预训练集群效率提升而AI模型过去三个月未呈指数增长导致GPU需求增速放缓[1] AI计算范式转变 - 行业正从预训练为中心转向推理计算为中心后者扩展性更优且成本更低[2] - 推理AI指模型产生预测的过程相比预训练更快更便宜预训练则更深入彻底[3] - 未来数据中心将更多采用"推理本田"模式（小型低成本）而非"预训练法拉利"（大型高成本）[3] 戴尔战略合作与技术优势 - 与AMD达成协议 Ryzen AI PRO处理器将为戴尔设备提供实时字幕语言翻译及更高安全性[4] - AMD CEO指出其MI300X GPU在推理计算TCO上显著优于Nvidia H100 戴尔可通过替代方案降低系统成本[4] - 摩根士丹利数据证实AMD的TCO远低于Nvidia 戴尔将受益于此技术路线[4] 财务表现与预期 - Q4财报预期EPS 2 52美元（同比+14 46%）收入245 7亿美元（同比+10 09%）分析师预测区间狭窄显示共识强[5] - 过去三个月EPS预测20次修正中18次下调收入16次修正中15次下调但分析师认为存在上行惊喜空间[6][7] 重大商业合作 - 即将与xAI签署50亿美元协议显著提升AI服务器业务规模[8] - 预计2024-2025财年AI服务器出货量增加40亿美元[9] 估值与增长潜力 - 非GAAP预期市盈率14 5 较行业中值23 87折价39 26% 量化评级A-[9] - 预期市销率0 83 较行业中值3 11低73 43% 量化评级A[9] - 若市盈率回归行业中值股价潜在涨幅达64 6%[9] 行业趋势支撑逻辑 - 杰文斯悖论显示AI代币使用成本下降将刺激总需求增长推理计算市场扩张利好戴尔[10] - AI模型工具价值提升推动消费需求转向低成本推理GPU集群趋势与戴尔战略契合[10] - 与AMD xAI的合作将直接推动销售增长叠加行业转型形成双重催化剂[11]