Workflow
预训练
icon
搜索文档
三位顶流AI技术人罕见同台,谈了谈AI行业最大的「罗生门」
36氪· 2025-05-28 11:59
AI技术发展路径的共识与非共识 - 预训练技术从2023年的行业共识到2025年面临质疑,OpenAI前首席科学家公开认为"预训练已走到尽头",而DeepSeek R1等强化学习模型崛起[1] - 蚂蚁集团技术开放日圆桌讨论显示,行业分化成两派:曹越、孔令鹏等通过跨架构创新(如语言模型应用Diffusion、视频模型采用自回归)实现突破,阿里则坚持Transformer等传统路径[3][4][14] - 当前行业呈现多元探索态势,参与者形容为"摸彩票",不同技术路线本质是平衡模型偏差与数据偏差的尝试[7][17][18] 主流架构的技术突破 - 扩散模型创新:Dream 7B以7B参数量超越671B的DeepSeek V3,通过双向学习处理并行任务,在数学/代码任务表现突出[3][8][17] - 视频模型革新:曹越团队将自回归应用于视频生成,突破Sora无时序先验的限制,通过编码时间关系提升信息利用率[10][11][12] - Transformer持续主导:阿里内部多次"魔改"Transformer后仍确认其最优性,但承认MOE架构在扩展性上的潜力[5][14][16] 模型优化与效率挑战 - MOE架构进展:DeepSeek实现1:20+稀疏比,阿里测试显示1:10-1:20区间效果最佳,但专家数增加会降低训练稳定性[19][20][22] - 多模态融合创新:通过Attention稀疏化提升跨模态效率,端到端优化Tokenize到联合建模的全流程[24][25][26] - 硬件制约明显:GPU对Transformer训练非最优,行业呼吁软硬一体解决方案[34][35][36] 预训练与数据应用趋势 - 预训练价值分歧:2024年认为数据枯竭是共识,2025年美国新观点认为仍有潜力,阿里证实数据增量仍能提升模型性能[38][39] - 算力驱动创新:历史显示算力增长可激活曾被放弃的技术,当前需重点优化算力利用率[40][41] - 创造本质探索:将创作定义为搜索问题,通过可能性空间遍历实现智能生成[42][43] 行业现存问题与应对 - 幻觉控制难题:强化学习可能加剧错误推理模式,阿里尝试通过稀疏自编码器(SAE)定位并抑制相关特征[30][31] - 架构选择成本:模型结构需同时兼容预训练与强化学习,当前每次技术押注成本显著上升[20][33] - 技术迭代哲学:行业进步类似飞机航道调整,需动态修正而非预测终极形态[44][45]
公元:DeepSeek只打开一扇门,大模型远没到终局 | 投资人说
红杉汇· 2025-05-11 05:09
人工智能与具身智能赛道现状 - 当前AI与具身智能赛道处于类似互联网初期的百花齐放阶段,底层技术和垂直细分领域机会众多[5] - 具身智能领域可能处于类似2018年LLM的阶段,尚未出现GPT时刻,但AGI的长期前景被普遍看好[8][9] - 行业变化极快,AI领域"一天相当于人间一年",模型迭代速度远超传统商业模式演进速度[7] DeepSeek的影响 - DeepSeek的R1模型通过开源后训练方法论实现了"技术平权",将全球AI研发重新拉回同一起跑线[6] - 该突破改变了国内大模型行业格局,但预训练与后训练技术仍需双轮发展,行业终局尚未确定[6] - 春节期间的技术突破导致行业认知发生剧烈变化,两个月内从"后训练重要"转向"预训练重要"[6] 投资逻辑变化 - 传统基于DAU/MAU的商业评估模式失效,用户可能因技术突破瞬间转移[7] - 投资人需要快速建立对AGI能力的感知,而非依赖传统商业指标[7] - 具身智能投资的核心逻辑是押注物理世界AGI的实现概率[9] 创业范式转变 - 新时代创业更强调技术颠覆创新而非明确商业化路线[1] - 当前创业者难以清晰描述具体应用场景,更多聚焦技术路线本身[8] - 成功要素转变为对AGI的信念而非传统商业计划[9] 行业参与者特点 - 顶级投资人需保持高度热爱和好奇心以应对快速变化的技术环境[10] - 国内大模型可能形成DeepSeek、千问和豆包三强格局的预测出现[6]
AI Agent:算力需求空间?
2025-05-06 02:28
纪要涉及的行业 AI算力行业 纪要提到的核心观点和论据 1. **算力需求增长逻辑** - **AI应用渗透推动推理需求**:AI应用逐渐渗透到生活和工作各环节,改变使用习惯,使算力推理需求快速增长,微软、谷歌等大厂推理需求占比可能达60%-70%,主要源于老应用改造而非开发全新APP [1][2] - **细分领域仍有增长潜力**:训练环节市场预期悲观,但实际可能更好,预训练边际效应减缓,后训练增速不明显,但细分领域如AI Agent有增长潜力 [1][4] 2. **市场预期情况** - **算力产业链与AI应用分化**:从2024年5月开始,除ASIC外,算力产业链边际走弱,英伟达股价未创新高,市场对整体算力需求预期悲观;而AI应用领域表现强劲,如Palantir股价创新高,市场对AI应用预期较高 [1][5] 3. **解决算力需求问题方向** - **训练与推理两手抓**:解决算力需求青黄不接问题需关注训练和推理两方面,训练算力需求短期难提升,推理依赖Agent发展,Agent在特定场景已有所起色 [1][7] 4. **2025年算力需求来源** - **老应用改造、新衍生应用与Post Training**:2025年算力需求主要来自老应用改造(如推荐引擎在海外大厂的应用)、新衍生应用(如Agent)以及Post Training阶段,Agent面向ToB/ToD场景,特定领域需求显现 [1][12] 5. **Chatbot与Agent对比** - **应用场景与爆款潜力不同**:Chatbot面向ToC市场,易形成爆款;Agent面向ToB和ToD场景,不易成为爆款,其算力需求难被资本市场迅速感知 [13] - **任务复杂度与交互方式差异大**:Chatbot单次交互量约1000个TOKEN,一对一、一问一答式交互;Agent完成单个任务所需TOKEN量达几万甚至十万个,多任务、多Agent协作执行,消耗数据量和TOKEN数量远高于Chatbot [25] - **存储和算力需求有别**:Chatbot对存储和内存要求低;Agent执行任务各步骤需连贯操作,对存储和内存要求高,对计算能力和存储都有较高需求 [27][28] 6. **算力需求计算与评估** - **训练与推理算力需求公式**:训练算力需求预期约为6ND,推理算力需求预期约为2ND,N代表模型参数量,D代表数据集 [16] - **评估服务器或GPU卡数量**:通过总需求除以单个GPU卡的算力估算所需设备数量,同时考虑设备实际利用率 [34] 7. **模型选择与优化** - **优先选择小模型**:选择模型参数时优先考虑小模型,大厂做推理应用倾向先上小模型,降低成本,提高可接受性 [31] - **优化模型访问和推理方法**:使用低精度计算、模型蒸馏,结合硬件优化如KV缓存优化,可降低内存消耗,提高整体效率 [35] 其他重要但是可能被忽略的内容 1. **后训练情况**:后训练自2024年9月推出,对市场影响不明显,从事厂商数量有限,数据难跟踪,在模型参数量上维持在几万亿量级,虽算力需求预期不明显,但能提升推理能力,如DeepSeek R1体现后训练扩展法则 [8][9][19] 2. **AI Agent产品表现**:一些AI Agent产品如Mariner在美国市场表现良好,融资和用户增长迅速,在海外人力成本高的地区受众广泛,但在中国市场难推广 [2] 3. **大型科技公司资本开支**:微软和Meta本季度未削减资本开支,对未来算力需求持坚定态度,若后续应用进展顺利,算力规划短期内不会下降 [40] 4. **过去一季度AI应用发展**:过去一个季度多个AI应用发展迅速,如Mariner 3月月活访问量达2310万,Cursor有2000多万,微软3月产生50万亿个TOKEN,占季度总量一半 [38]
智谱想给DeepSeek来一场偷袭
虎嗅· 2025-03-31 12:39
文章核心观点 智谱在3月31日中关村论坛闭幕式现场推出新模型反击DeepSeek,同时公司在商业化布局、技术研发等方面有相应规划和思考,以应对行业变化和挑战 [2][6] 公司动态 - 3月31日智谱在智能体产品和基座模型两大维度分别推出"AutoGLM沉思模型"和推理模型GLM - Z1 - Air,Air用32B参数比肩671B的DeepSeek R1模型,价格仅为其1/30,且将于4月14日正式开源 [2] - 智谱CEO张鹏称公司在为IPO铺路但无具体计划,商业化以端侧为切口渗透七大行业,还宣布与东盟十国及“一带一路”沿线国家共建“自主大模型共建联盟” [6] - 智谱2023年开始在Agent领域投入,现阶段认为进入可大规模应用和落地阶段 [16] - 智谱会对具身智能进行相应布局,但还需时间 [19] 行业现状 - 2025年大模型圈“预训练”难成关键词,大模型六小虎中百川智能大批核心成员离职并砍掉部分业务,零一万物放弃万亿参数赛道转向B端业务 [3] - 自2025年初DeepSeek以“成本优势 + 开源”撕开市场缺口,头部云厂商依托生态优势卡位,大模型创业公司用价格力挽狂澜 [9] - 第一季度资本对大模型初创公司失去耐心,除智谱连续拿到地方产投融资,无市场化资本进入其余大模型企业 [4] - 大模型企业面临商业化难题,预训练未能让基座模型厂商形成护城河 [5][6] 对话问答 开源策略与商业化 - 开源是智谱从第一天开始坚持的事,宣布2025年为开源年是考虑DeepSeek对技术生态和认知的影响,公司认为模型即服务(MaaS)会落地,开源与否不是关键问题 [12] 预训练与推理模型 - 预训练仍很重要,是RL等方法的基座模型天花板,其中预训练的架构、数据使用效率等有很多待研究点 [13] - 推理模型在泛用性任务上表现不及预期,但技术改进会产生新可能,其应用受技术发展阶段影响 [14] 融资计划 - 实现AGI路程长,从0到1开拓试错成本高,公司走在前面的部分需加大投入 [15] Agent领域 - Agent核心能力是模型本身能力和感知环境与环境智能交互能力,AutoGLM更早用于手机端,其他端侧也可接入,但存在设备交互方式和硬件适配问题 [17] 战略层面 - 公司定位技术驱动,技术研发和商业化两条腿动态调整,目前核心任务和资源投入仍侧重技术研发 [21] 落地预期 - 去年公司整体实现超100%增长,今年预计市场呈十倍以上增长,公司会保持稳定商业化落地速度和效益 [22]
戴尔第四季度预览:推理 AI 助阵 ,现在是买入好时机吗?
美股研究社· 2025-02-27 10:41
戴尔股价落后原因 - 自11月以来股价落后市场 主要因市场担忧AI数据中心建设放缓 尤其微软资本支出战略变化传闻影响[1] - 市场担忧Blackwell支持的预训练集群效率提升 而AI模型过去三个月未呈指数增长 导致GPU需求增速放缓[1] AI计算范式转变 - 行业正从预训练为中心转向推理计算为中心 后者扩展性更优且成本更低[2] - 推理AI指模型产生预测的过程 相比预训练更快更便宜 预训练则更深入彻底[3] - 未来数据中心将更多采用"推理本田"模式(小型低成本)而非"预训练法拉利"(大型高成本)[3] 戴尔战略合作与技术优势 - 与AMD达成协议 Ryzen AI PRO处理器将为戴尔设备提供实时字幕 语言翻译及更高安全性[4] - AMD CEO指出其MI300X GPU在推理计算TCO上显著优于Nvidia H100 戴尔可通过替代方案降低系统成本[4] - 摩根士丹利数据证实AMD的TCO远低于Nvidia 戴尔将受益于此技术路线[4] 财务表现与预期 - Q4财报预期EPS 2 52美元(同比+14 46%) 收入245 7亿美元(同比+10 09%) 分析师预测区间狭窄显示共识强[5] - 过去三个月EPS预测20次修正中18次下调 收入16次修正中15次下调 但分析师认为存在上行惊喜空间[6][7] 重大商业合作 - 即将与xAI签署50亿美元协议 显著提升AI服务器业务规模[8] - 预计2024-2025财年AI服务器出货量增加40亿美元[9] 估值与增长潜力 - 非GAAP预期市盈率14 5 较行业中值23 87折价39 26% 量化评级A-[9] - 预期市销率0 83 较行业中值3 11低73 43% 量化评级A[9] - 若市盈率回归行业中值 股价潜在涨幅达64 6%[9] 行业趋势支撑逻辑 - 杰文斯悖论显示AI代币使用成本下降将刺激总需求增长 推理计算市场扩张利好戴尔[10] - AI模型工具价值提升推动消费需求 转向低成本推理GPU集群趋势与戴尔战略契合[10] - 与AMD xAI的合作将直接推动销售增长 叠加行业转型形成双重催化剂[11]