Workflow
高阶注意力机制
icon
搜索文档
华为新架构砍了Transformer大动脉!任意模型推理能力原地飙升
量子位· 2025-12-05 02:13
文章核心观点 - 华为诺亚方舟实验室提出了一种名为Nexus的全新高阶注意力机制,旨在解决Transformer架构在复杂数学和逻辑推理任务上的根本性缺陷[7][8] - Nexus通过革新Query和Key的生成过程、采用递归框架以及权重共享策略,在不增加模型参数量的前提下,显著提升了模型在复杂推理任务上的性能[10][29][31] - 该架构不仅在小规模从头训练模型中表现优异,还能作为即插即用的升级套件用于改进现有大语言模型,展示了架构创新相对于单纯扩大模型规模的重要性[36][44][48] Transformer架构的现存问题 - 传统的自注意力机制本质上是配对比较,每个词只与另一个词直接关联,导致其在建模多跳、多点之间的复杂、间接逻辑关系时能力不足[5][6] - 标准注意力机制中,Query和Key是静态的、与上下文无关的线性投影,限制了模型捕捉复杂动态关系的能力[14][15] Nexus高阶注意力机制的核心创新 - **精妙第一刀:Q和K的革新** - 将Query和Key的生成过程本身也设计为一个注意力操作,使token在计算最终Q和K前,先通过一个“预推理”的内部循环从全局上下文中聚合信息,形成更具上下文感知能力的表示[17][18][20] - **精妙第二刀:巧用递归框架** - 采用递归框架,将内部注意力循环进行嵌套,从而能够构建二阶乃至更高阶的关系,天然支持多跳推理链[23][24][27] - **精妙第三刀:不增参数** - 通过权重共享策略,让内层和外层的注意力模块复用同一组投影权重,使得模型在计算路径更复杂的同时,参数量与原始Transformer完全一致[29][30][31] - 消融实验显示,使用权重共享的Nexus-QK-Shared版本在Pythia-70M模型上,平均准确率比基线高出近1个百分点,而参数量无增加[34] Nexus架构的实验效果 - **小模型全面领先** - 在Pythia系列模型上从头训练Nexus,在六个标准推理数据集上均优于原始Transformer,在需要多步推理或科学常识的任务中提升显著[37][38] - 具体数据:在70M参数的SciQ任务上,准确率从61.5%提升至68.5%(提升7个百分点);在1B参数的PiQA任务上,准确率从62.5%提升至63.6%[39][40] - **大模型改装即用** - 将Qwen2.5的1.5B和7B版本的标准注意力层替换为Nexus结构,仅进行监督微调,即可在多个高难度数学推理基准上带来稳定提升[41][42] - 具体数据:Qwen2.5-1.5B在MATH-500上准确率从78.6%提升至80.1%;Qwen2.5-7B在AIME24上准确率从45.2%提升至47.5%[43][49] 技术影响与行业意义 - Nexus架构的思想具有普适性,其高阶关系建模能力可应用于视觉、图神经网络及多模态任务,华为诺亚团队下一步将探索其在视觉Transformer和多模态大模型中的应用[45][46] - 该研究揭示了Transformer模型的瓶颈可能在于注意力机制的表达能力,而非参数量,强调了聪明的架构设计有时比单纯扩大模型规模更为重要[46][47][48]