为什么这篇谷歌论文被称为「Attention is all you need」V2
量子位·2025-12-21 05:45

文章核心观点 - 谷歌提出名为“嵌套学习”的新研究范式,指出当前大型语言模型存在“数字失忆症”的根本问题,并认为解决之道在于引入“频率”这一被忽略的维度,而非单纯增加模型深度和参数量[1][5] - 研究颠覆性地揭示了主流优化器本身就是一个持续进行“记忆”的关联记忆系统,这为重新审视整个学习架构提供了支点[5][6] - 基于新范式构建的HOPE架构,通过一个连续记忆光谱系统,模仿人脑多频率记忆机制,展现了解决持续学习问题的潜力,可能引领一场AI设计逻辑的范式转移[14][16][18] 当前AI模型的局限与问题 - 当前所有大型语言模型普遍存在“数字失忆症”,即无法记住对话中刚教授的新知识,快速遗忘[2][3] - 过去十年,行业主要遵循“规模即智能”的黄金定律,通过堆叠Transformer层和追逐万亿参数来试图解决记忆问题,但此方向存在明显问题[3] - 仅提高算法复杂度和模型规模,可能不会使快速适应新任务、持续学习及泛化等能力显著提升,且训练可能收敛到次优解[4] - 当前大模型的工作频率只有两种极端:快速响应但转瞬即逝的对话缓存,以及预训练完成后便冻结的长期知识,严重缺失中间频谱的记忆通道,导致新知识无处安放[11][12] “嵌套学习”新范式 - 该研究被誉为“Attention is All You Need”V2,其核心是认为真正有效的智能学习需要两个正交维度:深度(模型层数与容量)和频率(模型内部组件自我更新的节奏与速度)[1][5][9][10] - 研究指出,优化器不仅是指引参数更新的引擎,其本身就是一个在不同时间尺度上并行运行、持续压缩存储梯度变化模式的关联记忆系统[5][6] - 从优化器到注意力机制再到整个神经网络,可以被统一重新审视为在不同速度、不同抽象层级上嵌套运行的“学习-记忆”模块,而现有的深度学习体系只是这个更宏大范式的扁平化投影[6][7] HOPE架构与连续记忆系统 - 基于“嵌套学习”范式,研究团队构建了名为HOPE的新型架构,其核心创新是一个连续记忆系统[14] - 该系统由一系列像光谱一样排列、以不同预设频率更新的MLP模块组成,信息输入后会在不同节奏的记忆模块间自动流动与分配[14] - 高频模块类似“工作记忆”,快速捕捉即时细节与上下文;中频模块类似“近期记忆”,负责提炼归纳一段时间内的模式;低频模块类似“长期记忆”,缓慢稳定地将最重要知识沉淀为固有能力[14][15][16] - 此过程高度模仿了神经科学中信息从海马体向新皮层转移巩固的机制,在初步实验中已在标准语言建模和常识推理任务上展现强大竞争力,并显露出解决持续学习问题的巨大潜力[16][17] 研究的意义与影响 - “嵌套学习”的深远意义在于提供了一套全新的AI设计逻辑和思考框架,其突破不一定依赖于发明更复杂的“神经元积木”,而在于设计能激发潜能的框架[18] - 如同2017年“注意力”机制统一了序列建模的视野,“嵌套学习”正试图为学习过程本身构建一个统一、可解释的“白箱”模型[18] - 该研究启示,人工智能的未来不仅需要更深的网络,更需要一个能够持续学习和演化的系统,而非一个静止的、被凝固在训练完成一刻的“知识琥珀”[18]