Workflow
Transformer
icon
搜索文档
遥遥无期的AGI是画大饼吗?两位教授「吵起来了」
机器之心· 2025-12-21 04:21
文章核心观点 - 文章围绕“AGI能否实现”这一核心议题,呈现了两种对立的观点:一种基于物理和成本限制认为AGI和超级智能无法实现[3][7][28],另一种则认为当前AI系统在软硬件效率上仍有巨大提升空间,通往更强AI的道路多样,实用化的“类AGI”能力可能并不遥远[33][36][66] 对AGI的悲观论据(物理与成本限制) - **计算受物理规律制约**:计算是物理过程,需要在局部计算与全局信息移动间取得平衡,随着晶体管缩小,计算变便宜但内存相对变贵,芯片面积主要被内存占据,导致算力可能因内存服务不足而成为“无效算力”[8][10][11] - **Transformer架构已接近物理最优**:该架构以最简单方式结合了局部计算与全局信息汇聚,是对信息处理单元的物理层面优化[11][12] - **线性进步需要指数级资源**:在物理现实和观念空间中,要获得线性改进,所需投入的资源呈指数级增长,观念创新因领域庞大而边际收益递减[13][15] - **GPU进步已停滞**:GPU在“性能/成本”指标上于2018年左右达峰,后续改进多为一次性特性(如16位精度、Tensor Core、HBM等),现已走到尽头,任何进一步改进都将是权衡而非纯收益[16][17] - **规模化收益面临极限**:过去GPU的指数级增长对冲了规模化所需的指数级成本,但现在规模化已变成指数级成本,物理极限可能在一到两年内逼近,规模化收益不再显著[20] - **基础设施优势可能迅速蒸发**:若研究/软件创新、强大的开源推理栈或向其他硬件平台迁移取得突破,前沿实验室的大规模基础设施优势可能一夜消失[21][22][26] - **超级智能是幻想**:超级智能自我改进引发爆炸增长的前提错误,智能改进受物理现实和缩放规律制约,线性改进需指数级资源,其发展更可能是填补能力空白而非推动边界外扩[28][29] - **AGI需具备物理执行能力**:真正的AGI需包含能在现实世界完成经济意义工作的实体机器人,但机器人领域数据收集成本高昂,现实细节复杂,许多问题经济上并不划算[25][27] 对AGI的乐观论据(效率与创新空间) - **当前AI系统被严重低估,效率远未达上限**:训练效率比几年前更低,例如DeepSeek-V3和Llama-4训练的MFU仅约20%,而2022年的BLOOM项目已达50%,当前模型设计并非为最高硬件利用率[39][41] - **推理效率存在更大提升空间**:最优化推理实现关注带宽利用率(MBU),FLOP利用率(MFU)常为个位数(<5%),这并非物理根本极限,而是当前自回归架构规模化带来的限制[43][44] - **新一代硬件提供显著算力提升**:Blackwell架构芯片的FP8吞吐量是Hopper的2.2倍,并支持原生FP4 Tensor Core,GB200等机架级方案可缓解通信瓶颈,高效FP4训练理论上可将可用FLOPs提升最多9倍[42][50] - **模型是硬件的滞后指标**:当前模型反映的是上一代硬件能力,而新一代超大规模集群(如10万卡以上)正在建设,意味着高达50倍的算力建设正在发生[47][48] - **明确的效率提升路径**:通过训练高效的架构协同设计、高质量高效率的FP4训练、推理高效的模型设计(如扩散式语言模型)等方式,可大幅提升硬件利用率[45][46][52] - **已有AI工具产生巨大经济影响**:以更务实的定义,一套在某些任务上比大多数人做得更好并能产生巨大经济影响的通用工具体系,可能并不遥远,例如当前模型已在编程等领域越过关键阈值[60][61] - **即便能力不提升,应用场景仍广阔**:假设模型能力冻结,系统层面的效率改进也足以让许多高影响力应用落地,且通过新的后训练范式、更好的样本效率等方法,可继续推进“有用AI工具”[62][63][65] 行业路径与理念差异 - **中美AI发展路径不同**:美国遵循“赢家通吃”思路,追求构建最大最强的超级智能模型;中国理念更侧重应用,认为模型能力本身没有应用重要,关键是实用性和以合理成本提升生产力[23][24] - **不同理念的可持续性**:在模型能力增速放缓的背景下,追求超级智能的目标可能遭遇困难,而推动AI经济扩散的务实思路可能更具长期优势[24][30]
为什么现代 AI 能做成?Hinton 对话 Jeff Dean
36氪· 2025-12-19 00:47
2025 年 12 月初,圣地亚哥 NeurIPS 大会。 Geoffrey Hinton(神经网络奠基人、2024年诺贝尔物理学奖得主)与Jeff Dean(Google首席科学家、 Gemini模型联合负责人、TPU架构师)的炉边对谈,成为这场大会的重要时刻。 对话聚焦一个关键问题: 现代 AI 为什么能从实验室走向数十亿用户? 从 AlexNet 在学生卧室的两块 GPU 上训练,到 Google 在餐巾纸上算出TPU需求;从学术圈的小众实 验,到支撑全球亿级应用的基础设施。 这是一次对 AI 工业化进程的系统性复盘。 他们给出的答案是:现代 AI 的突破从来不是单点奇迹,而是算法、硬件、工程同时成熟后的系统性涌 现。强算法必须与强基础设施结合,才能真正走向规模化。 看清这条路径,你就能理解AI为什么是今天这个样子。 第一节|AI的突破,起于一块GPU板 Geoffrey Hinton 说,现代 AI 真正的转折,不在某篇论文里,而是在他学生 Alex 的卧室里:两块 NVIDIA GPU 板,插在父母家电脑上,训练图像识别模型。电费,还是家里人掏的。 那是 2012年 ,ImageNet 比赛。 别人 ...
AI大牛张祥雨:Transformer撑不起Agent时代
第一财经· 2025-12-18 10:52
人脑是"无限流"压缩大师,大模型靠堆层数无法学会人类记忆,到8万Token就不可用了。 "但是很快我们发现了一个巨大的副作用。"张祥雨说,真正的难点是模型的智商会随着文本变化快速下降。"今天的Transformer,不管号称发布出来说支持 到多少Token,基本上到8万个就不可用了。" 这个问题指向了Transformer的一个缺陷,就是它的单向信息流设计。无论输入序列(Context)多长,模型的有效"思考深度"的信息只能从浅层向深层单向 传递,缺乏从深层向浅层的反馈与压缩机制,这与人类大脑"无限流"的记忆机制存在本质差异。 "我今天讲过的每一句话,都是历史上我见过的所有信息的函数。"张祥雨用比喻阐明,"这个函数能用层数固定的网络来表示吗?肯定不可以。"他说人类大 脑能够对从小到大的海量经历进行动态压缩和选择性回溯,而当前Transformer结构无法实现这种类似"无限流"世界的智能处理需求,这制约了AI向具备高度 自主性、能长期持续学习的通用Agent演进。 事实上,当前已经开始有研究者讨论Transformer是否存在根本局限性。就在今年10月,Transformer 架构的共同创造者Llion Jon ...
小米语音首席科学家:AI发展的本质就像生物进化,不开源要慢1000倍 | MEET2026
量子位· 2025-12-15 08:05
就像生物进化一样, AI"配方"的设计本质上就是一个不断试错的过程,而进化的速度,取决于"复制"一个新想法所需的时间。 在本次 量子位MEET2026智能未来大会 上,他也将开源视为AI进化的核心加速器—— 若没有开源,行业的进化速度恐怕要慢上一千倍;正是因为有了开源,技术才能像生物适应新环境一样,经历"长期停滞+瞬间爆发"的非线性 跃迁。 编辑部 整理自 MEET2026 量子位 | 公众号 QbitAI 从生物进化的漫长历程到AI技术的疯狂迭代,两者遵循着惊人相似的底层逻辑。 在探寻下一代AI架构的关键时刻,著名的"Kaldi之父"、小米集团首席语音科学家、IEEE Fellow Daniel Povey 提出: 至于如何在未来的竞争中生存,在他看来,大公司最明智的策略是"两条腿走路"—— 一边利用Transformer赋能当下的产品,一边保留资源探索未知,赌中下一个颠覆世界的机会。 为了完整体现Daniel Povey的思考,在不改变原意的基础上,量子位对演讲内容进行了翻译和编辑整理,希望能给你带来更多启发。 MEET2026智能未来大会是由量子位主办的行业峰会,近30位产业代表与会讨论。线下参会观众近 ...
我和辛顿一起发明了复杂神经网络,但它现在需要升级
36氪· 2025-12-14 23:26
而83岁的谢诺夫斯基,依然在实验室里追问那个问题。 也许没有人比他更适合回答今天AI缺失的那些碎片。他见证了神经网络从"异端"到"改变世界"的全过 程;他既懂物理学的简洁优雅,也懂生物学的复杂混沌;他和辛顿一起打开了AI的大门,又眼看着这 扇门后的世界变得越来越陌生。 1984年的一天,物理学家特伦斯·谢诺夫斯基和心理学家杰弗里·辛顿坐在实验室里,盯着黑板上的方程 发呆。那是AI的第二个寒冬,神经网络陷入僵局。人们都知道多层网络更强大,但没人知道怎么训练 它。 "如果我们把神经网络想象成一团气体呢?"谢诺夫斯基突然说。 这个疯狂的想法最终变成了玻尔兹曼机,这是一个用统计物理学重新定义"学习"的数学模型。它证明了 只要找到合适的能量函数,神经网络就能像气体从高温降到低温一样,自发地调整到最优状态。 这成为现代深度学习的理论基石之一。 但两人后续的志趣却互相有所偏离。辛顿发现了更实用的反向传播算法,带领深度学习走出寒冬,最终 迎来ChatGPT主导的AI时代。而谢诺夫斯基选择了回到神经科学实验室,用几十年时间解剖大脑的每一 个回路,试图回答那个最初的问题:大脑究竟是如何工作的? 40年后,辛顿因玻尔兹曼机获得20 ...
8 年后回到斯坦福,布林复盘谷歌 AI:错在太谨慎
36氪· 2025-12-14 01:34
"我们搞砸了。" 2025 年 12 月 12 日,斯坦福工程学院百年庆典。 谷歌联合创始人谢尔盖·布林(Sergey Brin)回到母校,坐在讲台中央,开门见山: Transformer论文是我们发的,但我们没有足够认真对待它。 算力没跟上,产品不敢推,就怕聊天机器人说蠢话。 时间回到 2017 年。那一年,Google发布Transformer,技术上领先全球。但 5 年后,率先把大模型变成 产品的,却是 OpenAI。 ChatGPT 横空出世,Claude紧随其后。而谷歌,错过了AI的第一轮爆发。 布林没有回避这段历史。他直言:我也在场,但我们没有行动。 2022 年底,他重新回归Google,亲手参与 Gemini的每一个关键决策。 这一次回到斯坦福,他不讲情怀,只讲三件事: 谷歌错在哪? 现在怎么追? 这场仗,怎么打? 第一节|发明了Transformer,却输给了OpenAI 2017年,Google的研究团队发表了那篇划时代的论文《Attention is All You Need》。Transformer架构由 此诞生,点燃了整个大模型时代。 彼时谷歌内部并非没有察觉其颠覆性意义。Jeff ...
MIT最新发现:这十年,算法进步被高估了
机器之心· 2025-12-11 02:47
文章核心观点 - 过去十年AI的进步由计算预算增长和算法创新共同推动,但算法进步的量化及其来源尚不清晰 [2] - 一项2024年的研究发现,算法进步在过去十年贡献了超过4个数量级的有效计算量提升,而计算规模本身增长了7个数量级 [2] - 研究通过三种互补方法得出结论:大多数算法创新带来的效率提升有限且与规模无关,而少数强烈依赖规模的创新(如LSTM到Transformer,Kaplan到Chinchilla)贡献了绝大部分的效率提升,且算法进步的速度和幅度高度依赖于所选的参考基线 [3][4][6] 算法进步的量化与总体影响 - 所有算法创新加起来使模型效率提高了约22,000倍,理论上可用少得多的浮点运算次数达到相同性能 [3] - 在总计21,400倍(相对于LSTM模型)的性能提升中,从LSTM转向Kaplan Transformer模型贡献了846倍的提升,Chinchilla训练策略贡献了近10倍的提升,这两项创新共同构成了总相对效率提升的91% [4][22] - 与规模无关的算法进步总体计算效率提升不到10倍,在推算到2025年计算能力极限(2 × 10²³ FLOPs)时,这些提升仅占总改进的不到10% [4] 算法进步的特性与模式 - 大多数经过实验评估的算法创新只带来小幅的、与规模无关的效率提升,提升倍数极不均匀,主要集中在少数几项改进上(如Adam优化器、pre-RMSNorm带来约2倍提升)[4][11] - 算法进步呈现断裂或不连续的模式:多年小幅改进之后,会出现一次较大的算法跃迁 [12] - 原始论文所声称的效率提升,往往远高于后续文献给出的估计以及该研究本身的实验结果 [9] 规模依赖型算法创新 - 研究发现有两项强烈依赖规模的算法创新:从LSTM到Transformer,以及从Kaplan到Chinchilla训练策略 [4] - 神经网络架构的改进具有随规模增加而回报提升的特性,并非规模不变 [20] - 从小模型LSTM切换到现代Transformer的总效率提升为6.28倍,切换到Retro Transformer的效率提升为4.69倍,这远低于此前文献估计的约60倍提升 [11] 算法进步与计算规模的关系 - 算法进步可能本质上就是依赖规模的,要真正体现其效益需要不断增长的计算规模 [6] - 算法进步对大模型开发者的益处远大于对小规模参与者的益处 [6] - 前沿模型的计算预算正以每年4.2倍的速度呈指数增长,算法进步的速率可能更多受算力扩张推动,而非不断涌现的算法创新 [22] 算法进步速度的参照系依赖 - 算法进步的速度强烈依赖于所选择的参考算法 [4] - 以LSTM为参照,Transformer系列(尤其是更大模型)会显得算法进步是指数增长的(论文测到一年增长率大约63%);但以Transformer自身为参照,随着规模变大,算法进步幅度很小(只比以前好约2倍)[24][25] - 换个对照组,算法进步的速度评估结果会从指数增长变为增长幅度很少 [26]
GoogleTitans架构再次亮相NeurIPS2025,补全Transformer的长上下文短板
海通国际证券· 2025-12-08 06:12
报告行业投资评级 * 报告未对特定公司或行业给出明确的投资评级(如优于大市、中性、弱于大市)[1][5][17][23][24] 报告的核心观点 * Google在NeurIPS 2025重申其Titans架构并发布理论框架MIRAS,这被视为Transformer之后的重要架构演进方向,旨在解决大模型在超长上下文、长期记忆和跨文档推理上的核心瓶颈[1][11] * Titans架构通过记忆增强与递归-注意力混合设计,实现了百万级token的长文本处理能力,官方表示能处理约**200万** token,支持整本书、代码仓、合规文档等超长文本任务[2][12] * 相较于主流Transformer,Titans的核心创新在于推理阶段的动态记忆(test-time learning),允许模型在使用过程中动态更新内部记忆结构,从而在长任务链和跨会话任务中保持更强的连续性与知识积累能力[3][13] * Titans是对Transformer架构的有效补全而非替代,它在长上下文理解、代码仓分析、企业知识库检索、多文档推理及长期对话智能体等场景中具备显著优势,而Transformer在短文本、低延迟推理等传统任务上仍保持效率与成熟度优势,两者短期内将呈现分工式共存[4][14][16] 根据相关目录分别进行总结 事件与架构概述 * Google在NeurIPS 2025再次强调其Titans架构,并公开相关理论框架MIRAS[1][11] * Titans支持**百万级** token上下文处理,并引入推理阶段学习能力,推动模型向可持续积累经验的智能体方向迈进[1][11] Titans架构的技术突破 * **长期记忆模块(Neural Memory)**:引入可更新记忆模块,模型在推理中可将关键信息写入记忆并在后续检索,形成类似长期记忆的结构[2][12] * **递归与注意力的混合结构**:使用递归结构(RNN-like updates)负责线性处理长序列,注意力机制(Transformer-like interactions)负责复杂交互[2][12] * **MIRAS理论框架**:定义了何时写记忆、如何筛选重要信息以及如何在推理阶段动态更新的规则[2][12] 与Transformer的对比分析 * **处理效率**:Transformer依赖全局注意力,复杂度随序列长度呈平方级(O(N²))增长,在百万级token任务上存在显著计算与存储瓶颈;Titans通过关键表示提取与记忆写入路径,大幅降低了长文本处理成本[3][13] * **推理动态性**:Transformer的推理过程是静态的,基于训练固化的参数;Titans引入推理阶段学习,允许动态更新内部记忆结构[3][13] * **应用场景分工**:Titans在长文本理解、代码仓分析、企业知识库检索、多文档工作流和长期智能体等场景中具备明显优势;Transformer在短上下文、高吞吐量及对延迟敏感的任务上仍是更优解[3][4][13][14][16] 性能表现 * Titans在超长序列任务中显著领先,能在百万级上下文保持高准确率[7] * 在相同规模与训练量下,Titans保持更优的训练效率与模型质量[8][10]
谷歌新架构突破Transformer超长上下文瓶颈!Hinton灵魂拷问:后悔Open吗?
量子位· 2025-12-05 09:33
谷歌发布突破性大模型新架构 - 谷歌在NeurIPS 2025上发布两项关于大模型新架构的研究,旨在突破Transformer在处理超长上下文时的根本局限 [1][2] - 新架构通过“测试时训练”机制,能在推理阶段将上下文窗口扩展至200万token [2] - 谷歌近期在从产品到基础研究方面展现出穷追猛打的竞争态势 [5] Transformer架构的固有局限 - Transformer的自注意力机制导致计算量和内存消耗与序列长度的平方成正比(O(N²)),这是处理超长上下文时的主要瓶颈 [4][7] - 学界已探索线性循环网络和状态空间模型等替代方案,通过将上下文压缩到固定大小实现线性扩展,但难以充分捕捉超长序列中的丰富信息 [9][10] Titans架构:结合RNN速度与Transformer性能 - Titans是谷歌提出的新架构,其目标是结合RNN的速度和Transformer的性能 [8][11] - 该架构的核心是“测试时记忆”,模型在推理过程中无需离线重新训练,即可通过整合新信息来维持长期记忆 [12] - Titans引入了一种新的“神经长期记忆模块”,该模块本质上是一个在推理阶段仍能动态更新权重的多层感知机 [14][15] - 其关键设计是能够主动学习识别并保留输入数据中连接各个token的重要关系和概念,更新机制基于“惊喜指标”,即模型检测到记忆内容与新输入内容之间的差异 [18][19][20] - 低意外度的输入仅作为短期记忆处理,高意外度的输入则被优先存储到长期记忆模块中 [21] MAC:Titans的主要变体 - MAC是Titans架构的一种主要变体,其设计思路是将长期记忆作为额外的上下文信息直接输入给注意力机制 [16] - MAC不改变注意力计算方式,而是改变了注意力的输入来源,将长期记忆的“摘要”与当前短期输入一起处理 [16] - 实验表明,Titans (MAC)变体在多项长上下文测试中表现优异,例如在S-NIAH-W任务16K长度下准确率达到95.2%,显著优于Mamba 2(0.0%)和DeltaNet(0.0%)等模型 [30] MIRAS:序列建模的统一理论框架 - MIRAS是支持Titans背后的核心理论框架,其核心目标是让模型在推理阶段也能进行学习 [8][22] - MIRAS将任意序列模型解构为四个关键设计选择:内存架构、注意力偏差、保留门控(遗忘机制)和记忆算法 [23][28] - 该框架的创新在于引入非欧几里得目标函数,允许使用更复杂的数学惩罚机制来更新记忆 [26] - 基于MIRAS,研究人员创建了三个特定的无注意力模型:YAAD、MONETA和MEMORA,分别采用不同的损失函数和规则来提升鲁棒性、稳定性和可控性 [27][29] 性能表现与行业影响 - 基于Titans和MIRAS的模型性能优于最先进的线性循环模型(如Mamba 2)以及规模相近的Transformer基线模型 [27] - 新架构能够在参数规模小得多的情况下,处理极长上下文,并且性能优于GPT-4等大规模模型 [32] - 谷歌方面表示,尽管面临竞争,但不后悔公开Transformer研究,认为其对世界产生了巨大的积极影响 [34]
借鉴人脑「海马体-皮层」机制,红熊AI重做了一个「记忆系统」
机器之心· 2025-12-03 04:01
行业趋势:AI发展重点转向记忆能力 - 大模型行业竞争焦点从扩大模型规模转向提升记忆能力和用户理解能力[4] - Google Research提出的"嵌套学习"新机器学习范式被视为重大突破,使AI能够持续学习新技能而不遗忘旧技能[2][3] - 当前AI普遍缺乏长期记忆能力,制约其从即时回答工具向个性化超级助手演进[5] 技术瓶颈:现有AI记忆系统缺陷 - 主流大模型存在8k-32k tokens的上下文窗口限制,长对话中早期信息易被"挤出"[6] - Transformer架构存在注意力衰减问题,产生"近因效应",更关注最新输入而忽略早期关键信息[6] - 多Agent协作场景中各模块形成"记忆孤岛",用户需重复提供信息[7] - 语义解析失真问题突出,静态知识库与动态个性化需求间存在鸿沟[7] 解决方案:红熊AI记忆熊技术突破 - 记忆熊采用"全链路重构" approach,借鉴人脑"海马体-皮层"分工机制构建分层记忆架构[11][13] - 技术架构分为显性记忆层和隐性记忆层,分别管理结构化信息和行为习惯[14][15][16] - 通过情感倾向加权机制对重要信息赋予更高权重,模拟人类情绪记忆[17] - 实现97%的token效率提升和82%的语境偏移率降低,复杂推理准确率达75.00±0.20%[17] - 在LOCOMO数据集测试中,搜索延迟p50控制在0.137秒,总延迟p95低至1.232秒[18] 商业应用:记忆熊落地场景与成效 - 智能客服场景实现70%人工替代率和98.4%自助解决率,创建客户终身记忆图谱[21][22] - 营销场景构建用户兴趣记忆图谱,实现超个性化营销推荐[22] - 企业数智化领域提升新员工知识获取效率50%以上,打破部门数据孤岛[23] - AI教育场景通过追溯数月错题本实现精准查漏补缺,重新定义个性化教学标准[23]