核心观点 - 当前AI领域的核心架构Transformer存在根本性技术瓶颈,其单向信息流设计导致模型在处理长上下文时智商快速下降,无法支撑具备长期记忆和持续学习能力的通用智能体(Agent)的下一步发展 [1][3][4] 行业技术瓶颈与现状 - Transformer架构是当前生成式AI和大语言模型的基石,其核心创新在于“自注意力机制” [1] - 行业看似进入“稳态”,各种创新模型架构最终都收敛到以Transformer为核心的变体上 [3] - 针对长上下文处理效率瓶颈,业界通过线性注意力、稀疏注意力等技术进行“小修小补”,但未改变Transformer的本质建模能力 [3] - 当前Transformer模型,无论宣称支持多少Token,基本上到8万个就不可用 [3] - Transformer的单向信息流设计缺乏从深层向浅层的反馈与压缩机制,与人类大脑的“无限流”记忆机制存在本质差异 [3] 技术缺陷的具体分析 - 人类大脑能对海量经历进行动态压缩和选择性回溯,而Transformer结构无法实现这种类似“无限流”世界的智能处理需求 [4] - 模型的智商会随着文本变化快速下降,制约了AI向具备高度自主性、能长期持续学习的通用Agent演进 [3][4] - 人类记忆是历史上所有信息的函数,无法用层数固定的网络来表示 [4] 行业反思与探索 - Transformer架构的共同创造者Llion Jones已开始寻找下一次重大突破,并警告研究者因过度依赖现有架构而错失下一个重大突破的风险正在加剧 [4] - Mamba、TTT(Test-Time Training)等新架构正吸引越来越多目光 [4] - 英伟达、Meta、腾讯等巨头已在探索将Mamba与Transformer融合 [4] - 中国科学院自动化所与沐曦合作研发的类脑脉冲大模型“瞬悉1.0”,展示了构建非Transformer架构生态的可行性 [4] 公司研发动态 - 阶跃星辰团队正在探索新的架构方向,一些小规模实验已取得积极结论 [5] - 公司认为未来的架构可能是基于非线性递归网络的全新架构 [5] - 这种架构革新将给系统效率和可并行度带来巨大挑战,需要协同设计才能落地 [5]
AI大牛张祥雨:Transformer撑不起Agent时代
第一财经·2025-12-18 10:52