Workflow
Titans架构
icon
搜索文档
腾讯研究院AI每周关键词Top50
腾讯研究院· 2025-12-13 02:33
芯片与算力进展 - 英伟达H200芯片出口成为关注焦点[3] - 摩尔线程发布了新的GPU架构[3] - 英伟达发布了CUDA Toolkit 13.1[3] - Starcloud在太空AI算力领域有所布局[3] 大模型与架构创新 - 谷歌推出了Titans架构和深度思考模式[3] - 智谱发布了GLM-4.6V模型[3] - 美团发布了LongCat-Image模型[3] - 腾讯发布了混元2.0模型[3] - 英伟达发布了NVARC小模型[3] - OpenAI正在进行新模型测试[3] - Mistral AI发布了Devstral 2模型[3] - Meta发布了名为「牛油果」的模型[3] AI应用与产品 - Meta展示了AI可穿戴设备[3] - Anthropic推出了AI面试官应用[3] - 微软发布了VibeVoice应用[3] - 可灵平台推出了主体库功能[3] - 阿里发布了Qwen3-TTS和Qwen-Image-i2L应用[3][4] - 智谱发布了AutoGLM和GLM-ASR应用[3] - 通义实验室有所动作[3] - Nature Select提到了Echo-N1应用[3] - Nabla Bio在开发前沿AI药物[3] - Adobe集成了ChatGPT功能[4] - 智谱发布了GLM-TTS应用[4] - 商汤发布了Seko 2.0应用[4] - 元宝应用推出了总结群消息功能[4] 前沿科技与硬件 - 普渡科技发布了PUDU D5系列产品[4] - Google推出了Android XR[4] - 智元机器人实现了机器人量产[4] - 灵初智能发布了Psi-SynEngine[4] 行业事件与动态 - 苹果公司面临人才流失问题[4] - 微软发布了红色警告[4] - Linux基金会与吴恩达联合成立了AAIF组织[4] 行业观点与趋势 - Yann LeCun发表了关于离职的论文[4] - OpenRouter分析了AI应用现状[4] - a16z提出了搜索AI时代的观点并探讨了AI创业机会[4] - Geoffrey Hinton认为谷歌AI必将获胜[4] - Andrej Karpathy分享了AI提问策略[4] - OpenAI讨论了企业AI采用情况[4] - 摩根士丹利指出TPU产能正在爆发[4] - Anthropic组建了AI宪法团队[4] - MiniMax强调了全模态发展的重要性[4]
GoogleTitans架构再次亮相NeurIPS2025,补全Transformer的长上下文短板
海通国际证券· 2025-12-08 06:12
报告行业投资评级 * 报告未对特定公司或行业给出明确的投资评级(如优于大市、中性、弱于大市)[1][5][17][23][24] 报告的核心观点 * Google在NeurIPS 2025重申其Titans架构并发布理论框架MIRAS,这被视为Transformer之后的重要架构演进方向,旨在解决大模型在超长上下文、长期记忆和跨文档推理上的核心瓶颈[1][11] * Titans架构通过记忆增强与递归-注意力混合设计,实现了百万级token的长文本处理能力,官方表示能处理约**200万** token,支持整本书、代码仓、合规文档等超长文本任务[2][12] * 相较于主流Transformer,Titans的核心创新在于推理阶段的动态记忆(test-time learning),允许模型在使用过程中动态更新内部记忆结构,从而在长任务链和跨会话任务中保持更强的连续性与知识积累能力[3][13] * Titans是对Transformer架构的有效补全而非替代,它在长上下文理解、代码仓分析、企业知识库检索、多文档推理及长期对话智能体等场景中具备显著优势,而Transformer在短文本、低延迟推理等传统任务上仍保持效率与成熟度优势,两者短期内将呈现分工式共存[4][14][16] 根据相关目录分别进行总结 事件与架构概述 * Google在NeurIPS 2025再次强调其Titans架构,并公开相关理论框架MIRAS[1][11] * Titans支持**百万级** token上下文处理,并引入推理阶段学习能力,推动模型向可持续积累经验的智能体方向迈进[1][11] Titans架构的技术突破 * **长期记忆模块(Neural Memory)**:引入可更新记忆模块,模型在推理中可将关键信息写入记忆并在后续检索,形成类似长期记忆的结构[2][12] * **递归与注意力的混合结构**:使用递归结构(RNN-like updates)负责线性处理长序列,注意力机制(Transformer-like interactions)负责复杂交互[2][12] * **MIRAS理论框架**:定义了何时写记忆、如何筛选重要信息以及如何在推理阶段动态更新的规则[2][12] 与Transformer的对比分析 * **处理效率**:Transformer依赖全局注意力,复杂度随序列长度呈平方级(O(N²))增长,在百万级token任务上存在显著计算与存储瓶颈;Titans通过关键表示提取与记忆写入路径,大幅降低了长文本处理成本[3][13] * **推理动态性**:Transformer的推理过程是静态的,基于训练固化的参数;Titans引入推理阶段学习,允许动态更新内部记忆结构[3][13] * **应用场景分工**:Titans在长文本理解、代码仓分析、企业知识库检索、多文档工作流和长期智能体等场景中具备明显优势;Transformer在短上下文、高吞吐量及对延迟敏感的任务上仍是更优解[3][4][13][14][16] 性能表现 * Titans在超长序列任务中显著领先,能在百万级上下文保持高准确率[7] * 在相同规模与训练量下,Titans保持更优的训练效率与模型质量[8][10]
谷歌祭出Transformer杀手,8年首次大突破,掌门人划出AGI死线
36氪· 2025-12-08 01:01
谷歌DeepMind对AGI发展路径的预测 - 谷歌DeepMind CEO Hassabis预测,具备或超越人类能力的通用人工智能(AGI)可能在2030年之前实现,距离实现AGI仅剩5到10年时间 [1][11] - 实现AGI需要1-2个类似Transformer或AlphaGo级别的重大技术突破 [1][4] - 通往AGI的道路存在风险,包括恶意使用AI可能导致的灾难性后果,甚至存在非零的灭绝级风险 [13] 当前AI系统的能力与局限 - 谷歌DeepMind对AGI的定义要求很高,需全面具备人类所有认知能力,包括创造力和发明能力 [16] - 当前大语言模型能力参差不齐,在某些领域达到博士水平甚至能获奥林匹克金牌,但在持续学习、在线学习、长期规划和多步推理等关键能力上存在明显缺陷 [16][18] - 谷歌Gemini模型已展现出超出预期的“抽象理解”和“元认知”能力,例如能理解电影场景的象征意义,但开发人员对其潜力的探索可能不足10% [14][15] 谷歌下一代AI架构Titans的技术突破 - 谷歌在NeurIPS 2025大会上发布了全新AI架构Titans,被视为Transformer的“最强继任者” [6][21] - Titans架构完美融合了RNN的极速响应和Transformer的强大性能,旨在解决Transformer在处理超长上下文时计算成本飙升的瓶颈 [7][24] - Titans引入了一种全新的神经长期记忆模块(一个深层多层感知机MLP),能够主动学习并即时更新参数,实现“测试时”记忆,在高达200万token的上下文中保持高召回率和准确率 [8][26][29][43] 统一理论框架MIRAS及新模型 - 谷歌同时提出了MIRAS理论框架,为序列建模提供了统一视角,将各种架构视为解决“融合新信息与保留旧记忆”核心问题的不同手段 [33][34] - MIRAS通过四个关键设计维度定义序列模型:记忆架构、注意偏置、保留门和记忆算法 [36][37] - 基于MIRAS框架,谷歌构建了YAAD、MONETA、MEMORA三款独特的无注意力模型,这些模型在语言建模和常识推理任务中表现出色,验证了探索非均方误差优化机制的优势 [40][41][42] Titans架构的性能表现 - 在多项基准测试中,Titans架构在同等参数规模下,性能优于最先进的线性循环模型(如Mamba-2和Gated DeltaNet)以及Transformer++基线模型 [40][41] - 在BABILong超长上下文推理基准测试中,Titans以更少的参数量,表现优于包括GPT-4在内的所有基线模型,并展示了可有效扩展到超过200万token上下文窗口的能力 [43] - 这些新架构保持了高效的并行化训练和快速的线性推理速度 [42] 未来AI发展趋势 - Hassabis指出,未来12个月的关键趋势包括:继续扩展现有AI系统规模,这至少会成为最终AGI的“关键构件” [3][18] - 多模态融合将彻底打通,实现类人的视觉智能、语言与视频的深度融合,世界模型成为主流,智能体达到可靠应用水平 [9] - 行业认为,Titans可能是谷歌自Transformer以来的首个重大突破,并预测采用该架构的Gemini 4可能即将推出 [45][47]
LLM 语境下,「持续学习」是否是 「记忆」 问题的最优解?
机器之心· 2025-11-16 01:30
LLM语境下持续学习与记忆问题 - 谷歌提出嵌套学习范式将模型视为一系列嵌套问题堆叠旨在学习新技能同时规避灾难性遗忘问题[6] - 嵌套学习核心论点在于机器学习模型由多个相互关联层次分明优化子问题组成将模型优化器与记忆统一看作多级并行带独立上下文流优化问题[6] - 基于嵌套学习原理研究者设计HOPE架构在语言建模长上下文推理持续学习与知识整合任务上较Transformer++等基线模型表现出更低困惑度与更高准确率[7] - AI社区存在争议认为嵌套学习类似已有技巧叠加如2020年ModNet和2024年ACh和NA框架等多尺度持续学习并非全新概念[8] - 持续学习核心挑战是解决灾难性遗忘即智能系统学习新任务时避免覆盖旧任务知识LLM时代表现为模型降智如领域SFT训练导致通用基准测试性能下降[8] - 当前LLM研究焦点偏向通过改善记忆力使智能体保留情景经验语义知识和程序技能设想跨持久智能记忆层包含Model Weights层KV Cache层和Context层[8] 从行为数据到AI记忆的路线 - 产品方强调更懂你资本强调难以复制引发AI产品护城河是否真实存在讨论不同产品在记什么记多久上押注不同方向[1] - 医疗对话记忆能否作为知识库提升诊疗质量探讨软件被动记录无法覆盖全部生活场景需借助硬件实现always on模式[1] 合成数据与人形机器人发展 - 合成数据被视为数据金字塔中坚力量DARPA寒冬已过人形机器人迎来技术和市场双重爆发[2] - 人形机器人利用以人为中心数据源真实数据虽是黄金标准但被称为最大瓶颈GenAI指数引擎是否创造有用数据受关注[2]