注意力机制

搜索文档
从Transformer到GPT-5,听听OpenAI科学家 Lukasz 的“大模型第一性思考”
AI科技大本营· 2025-09-23 02:11
以下文章来源于CSDN ,作者CSDN CSDN . 成就一亿技术人 2017 年,一篇标题看似简单、甚至有些狂妄的论文在线上出现:《Attention Is All You Need》。 在当时的 AI 研究界,这是一个石破天惊的宣言。它提议彻底抛弃被奉为圭臬的循环神经网络(RNN),只用一种名 为"注意力"的机制来处理语言。最初,许多人对此持怀疑态度。然而,这篇仅 15 页的论文很快就点燃了一场燎原之 火。它所提出的 Transformer 架构,以摧枯拉朽之势,重塑了人工智能的版图。今天,从驱动你手机输入的预测文 本,到生成惊艳图像的 DALL-E,再到改变世界的 ChatGPT,其底层的心跳,都源于那篇论文。 截至发文,其在 Google Scholar 上的引用次数高达 197159 次。 | TITLE | CITED BY | YEAR | | --- | --- | --- | | Attention is all you need | 197159 | 2017 | | A Vaswani, N Shazeer, N Parmar, J Uszkoreit, L Jones, AN Gome ...
跨学科注意力机制访谈系列开篇
36氪· 2025-09-05 03:48
绿洲资本AI投资布局 - 2023年上半年完成AI和具身智能方向核心投资组合构建 近二十个项目包括MiniMax、Vast、Boson、逐际动力、千寻智能、极壳科技等[1] - 投资逻辑基于对AI创新能级的判断 认为这是超越工业革命级别的创新 时间更短 能级更大[1] 技术认知演进路径 - 首次深度访谈形成核心认知:大模型本质是未来基础设施 智能将被标准化管理和分发 类似电力系统[2] - 第二次访谈聚焦Agent领域 提出Agent不是割裂工具 而是由大模型驱动的需求与智能一体化服务[4] - 2023年年中Agent尚未成为主流 缺乏统一理论认知 绿洲率先布局该领域[3] 注意力机制技术突破 - MiniMax发布Flash Attention技术 在Transformer架构内部优化注意力模块 显著提升训练与推理算力效率[7] - Attention机制已突破模型结构优化 渗透至脑科学、认知科学、心理学等多学科领域[7] - AI学习注意力的过程正在帮助人类重新理解自身感知与认知机制[7] AI技术发展双重路径 - 全球学者在Transformer结构上进行更大规模训练[8] - 认知结构和算法框架层面持续创新 推动AI掌握注意力机制[8] - 技术探索从教会机器理解注意力 转向构建可扩展的新范式[6] 人类注意力系统挑战 - 人类平均每日拿起手机超过500次 注意力持续时间压缩至不足100秒[11] - 从长篇电影到短视频 从深度阅读到信息切片 人类注意力窗口持续衰减[11] - AI将信息获取与响应速度提升至前所未有的水平 可能进一步削弱人类注意力[11] 未来研究方向 - 探索人类与AI共同构成系统中注意力的本质含义[10] - 研究当Agent成为社会主要生产者时 人类注意力机制面临的挑战[10] - 关注注意力管理作为人类自我管理的核心要素[11]
谷歌大脑之父首次坦白,茶水间闲聊引爆万亿帝国,AI自我突破触及门槛
36氪· 2025-08-25 03:35
个人成长与早期经历 - 童年时期频繁搬家,12年内更换11所学校,培养了适应能力 [7] - 9岁时接触早期Intel 8080计算机套件,通过BASIC语言书籍自学编程 [9][11][13] - 13岁时打印400页游戏源码学习并发编程,完成首个复杂软件移植 [14] - 本科期间接触遗传编程和神经网络,1990年尝试用32处理器并行训练神经网络 [15][17] 神经网络与工程突破 - 90年代提出数据并行/模型并行概念,早于相关术语普及 [8] - 2011年与吴恩达在谷歌茶水间交流后,启动Google Brain项目,目标是用GPU训练超大规模神经网络 [25][26] - 使用2000台计算机(16000核心)训练分布式神经网络,在视觉任务中实现无监督学习,生成"平均猫"图像 [26][27][30] - 无监督模型在Imagenet数据集上使错误率降低60%,监督语音模型在800台机器训练5天后错误率降低30% [30] - 推动定制机器学习硬件TPU开发,支持神经网络规模化应用 [30] 技术演进与核心贡献 - 推动词向量(word2vec)技术,用高维向量表示词汇语义 [32] - 序列到序列模型与LSTM网络应用于机器翻译,提升序列处理能力 [34][36] - 注意力机制与Transformer架构突破,实现n平方复杂度下的高性能序列处理 [38][40] - 谷歌大脑框架被数百个团队采用,支持搜索、广告等核心业务 [26] AI发展现状与未来方向 - LLM在非物理任务上超越普通人表现,但在专业领域尚未达到人类专家水平 [47] - 可解释性研究通过可视化或直接询问模型决策机制推进 [43][44] - 未来突破依赖自动化闭环:自动生成想法、测试、反馈及大规模解决方案搜索 [49] - 强化学习与大规模计算加速科学、工程领域发展,预计影响未来5-20年进程 [49] - 未来5年聚焦开发更强大、成本效益更高的模型,服务数十亿用户 [50] 行业影响与里程碑 - Google Brain项目促成神经网络在谷歌产品中的大规模部署 [26][30] - 纽约时报报道"猫图像"突破,成为AI认知里程碑事件 [27] - TensorFlow与TPU硬件推动行业机器学习基础设施标准化 [1][30]
从零开始!自动驾驶端到端与VLA学习路线图~
自动驾驶之心· 2025-08-24 23:32
端到端与VLA自动驾驶技术发展 - 端到端自动驾驶技术涉及多模态大模型、BEV感知、强化学习、视觉Transformer、扩散模型等多个领域技术栈 [32] - 技术发展从模块化方法演进至端到端范式 包括一段式、二段式和VLA范式 [36] - VLA(视觉语言动作)成为当前端到端自动驾驶的皇冠技术 上限高且业内招聘需求旺盛 [46] Transformer与大语言模型基础 - Transformer架构核心是注意力机制和多头注意力 通过基础模块堆叠形成Encoder和Decoder [11][13] - Token化采用BPE、Word-Piece等方法 通过合并高频字符实现压缩 [9][13] - 位置编码使用正弦和余弦函数 使模型记住词序且位置偏移量与当前位置呈线性关系 [9][13] 视觉与语言模型对齐技术 - CLIP是视觉与大模型对齐的广为认知的技术 为多模态大模型奠定基础 [18] - 视觉Transformer扩展了Transformer的基本概念 成为多模态模型重要组成部分 [43] - LLAVA等模型进一步推进了视觉语言模型的发展 [43] 课程内容体系设计 - 第一章介绍端到端算法发展历史、范式优缺点及学术界工业界动态 [36] - 第二章重点讲解大语言模型、BEV感知、扩散模型、强化学习等背景知识 [37][43] - 第三章分析二段式端到端 涵盖经典算法PLUTO、CVPR'25的CarPlanner和最新Plan-R1 [38] - 第四章深入一段式端到端子领域:基于感知的UniAD、基于世界模型的Drive-OccWorld、基于扩散模型的DiffusionDrive及基于VLA的ORION [39][41][44][46] - 第五章设置RLHF微调大作业 实现从理论到实践的完整闭环 [48] 技术人才市场需求 - VLA/VLM大模型算法专家岗位薪资达40-70K-15薪 要求3-5年经验硕士学历 [29] - VLA/VLM/LLM算法工程师薪资40-70K-15薪 不限经验但要求深度学习机器学习背景 [29] - VIA模型量化部署工程师薪资40-60K-15薪 要求1-3年经验及模型加速技能 [29] 课程特色与优势 - 采用Just-in-Time Learning理念 通过通俗语言和案例快速掌握核心技术栈 [33] - 帮助学员梳理研究发展脉络 形成自己的研究体系和工作经验 [34] - 配备实战环节包括Diffusion Planner和ORION开源推理评测模块 [44][46] - 学员结课后可达1年左右端到端自动驾驶算法工程师水平 [53] 讲师资质与课程安排 - 讲师Jason为C9本科+QS50 PHD 发表CCF-A论文2篇 现任TOP主机厂算法专家 [24][49] - 课程8月15日开课 预计三个月结课 采用离线视频教学+vip群答疑模式 [52] - 章节解锁时间安排:第一章8月01日、第二章8月15日、第三章8月30日、第四章9月15日、第五章10月30日 [53]
重塑注意力机制:GTA登场,KV缓存缩减70%、计算量削减62.5%
机器之心· 2025-07-22 08:59
核心观点 - GTA(Grouped-head latent Attention)是一种高效的大模型框架,通过共享注意力矩阵和压缩潜在值表示,显著提升模型性能与计算效率 [1] - GTA将计算量削减62.5%,KV缓存缩减70%,prefill和decode速度提升2倍,适用于长序列任务和边缘设备部署 [1] - 该技术由中国科学院自动化研究所、伦敦大学学院及香港科技大学(广州)联合研发,为大模型优化部署提供创新解决方案 [1] 大型语言模型效率困局 - Transformer架构虽推动NLP发展,但模型参数量激增导致传统多头注意力机制(MHA)弊端凸显 [3] - MHA存在计算冗余问题:每个注意力头独立计算查询/键/值向量,导致FLOPs呈平方级增长 [3] - 内存瓶颈显著:KV缓存规模随序列长度和注意力头数量快速膨胀,限制边缘设备部署能力 [3] - 推理延迟问题:高昂计算/内存需求导致实时应用体验下降,现有优化方案难以平衡性能与资源消耗 [4] GTA核心技术突破 分组共享注意力矩阵机制 - 将注意力头分组并共享统一注意力矩阵,减少重复计算(如16头MHA改为4组共享) [8] - 实验证明该设计可显著削减FLOPs,实现超长序列任务的推理加速 [10] 压缩潜在值表示技术 - 将所有注意力头的值向量压缩为低维潜在表示,配合WaLU非线性解码器动态生成完整向量 [12] - 在保留表达能力的同时,KV缓存规模缩减70%,突破边缘设备部署障碍 [14] 实验验证结果 160M参数模型表现 - 在2048/4096 token序列下,GTA2配置实现比MHA/GQA/MLA更低的评估损失(2.690 vs 2.696)和更优的Wikitext PPL(22.41 vs 23.03) [17] - KV缓存大小仅为MHA的12.5%(192维度 vs 1536维度) [17] 500M参数模型表现 - 2048 token序列中GTA4实现2.478评估损失,优于MHA的2.484,KV缓存为MHA的12.5%(320 vs 2560维度) [19] - 4096 token长序列任务中保持与MHA相当的评估损失(2.592),Wikitext PPL更优(16.96 vs 19.87) [19] 1B参数模型扩展性 - GTA-1B在50,000训练步中稳定收敛,KV缓存仅为GQA-1B的30% [20] - 微调后平均准确率达42.17,优于GQA-1B-SFT的40.64,自注意力计算成本低至37.5% [22] 效率评估 理论效率分析 - KV缓存尺寸和注意力计算量均实现数量级缩减,显著提升推理速度 [24] 实际硬件测试 - 在NVIDIA H100/A800、RTX 3060、Apple M2等平台测试中,GTA-1B预填充/解码时间全面优于GQA-1B [25][27] - 处理2k token长序列时性能优势更显著,缓存卸载场景下I/O效率提升明显 [29][30][31] 技术局限与未来方向 - 非线性解码器可能引入微小近似误差,需优化架构设计减少信息损失 [33] - 当前验证集中于NLP任务,需探索计算机视觉/多模态领域的适用性 [33] - 计划扩展至超大规模模型验证可扩展性,推动更广泛应用 [33]
Mamba一作预告新架构!长文论述Transformer≠最终解法
量子位· 2025-07-09 04:57
序列模型架构比较 - Mamba作为状态空间模型(SSMs)代表,在语言任务上3B规模超越同等Transformer,匹敌两倍规模Transformer [2] - SSMs工作方式类似人类大脑,通过压缩历史信息形成固定大小隐藏状态,适合处理长序列且计算成本呈线性增长 [15][16] - Transformer通过KV缓存完整记录所有token信息,具备精确记忆能力但计算成本呈二次复杂度 [23][25] 模型性能优势 - SSMs在语言/音频/DNA序列模态实现SOTA,计算效率高且内存需求固定 [16] - Mamba通过三大关键改进提升性能:扩大状态维度至RNN的N倍/引入选择性记忆机制/优化训练效率 [17][18][19][20] - Transformer依赖tokenization预处理,在多语言多模态场景存在局限性且违背端到端学习原则 [28][29][30] 架构融合趋势 - 混合架构中SSM层与注意力层最佳比例介于3:1至10:1之间 [37] - 注意力机制二次复杂度并非Transformer主要缺陷,新架构将保持兼容性 [5][7] - 未来方向是结合SSMs的在线处理能力与Transformer的精确检索优势,直接处理原始数据 [36][40] 行业技术发展 - Mamba作者预告几天后将发布架构领域重大进展 [3] - 当前共识可能被推翻,Transformer被视为阶段性最优解而非最终方案 [8] - 架构设计核心指标是FLOPs利用率,需快速转化为模型能力 [39]
心智×算法 如何“共舞”(瞰前沿·人工智能如何改变科研范式)
人民日报· 2025-06-13 21:43
人工智能与心理学融合 - 全球AI for Science论文发表年均增长率达27.2%(2019-2023年)[1] - 心理学原理如条件反射和强化学习启发了AI技术(如AlphaGo的强化学习机制)[2] - 认知心理学的注意力机制被应用于AI模型(如ChatGPT的注意力权重分配)[2] 技术应用与效率提升 - 通过社交媒体和可穿戴设备捕获10亿级行为数据流,心理学研究进入"数据海洋"时代[2] - AI自动评估人格的相关系数达0.5,显著高于传统问卷效率[3] - 情感计算技术通过声波震颤识别孤独指数,深度学习框架分析口语特征以筛查抑郁[3] 研究范式革新 - 大型语言模型开发自助心理支持工具,采用"零样本学习"和"思维链提示"策略提升情感互动能力[5] - AI生成大规模危机文本训练数据,突破敏感数据获取瓶颈,模型识别微弱求助信号的能力增强[5] - 谷歌DeepMind通过"心智进化"实验模拟自然选择,AI推理任务表现超越传统算法[6] 未来发展方向 - 心理学启发的决策机制将提升AI在开放环境中的判断力,多模态整合能力适应复杂情境[7] - 具身智能仿真平台(如"格物")采用进化式学习算法,机器人训练周期从数周压缩至分钟级[6] - AI情感慰藉可能改善人类心理状态,需重新定义情感边界并制定伦理规范[8]
ICML 2025 | 全局池化+局部保留,CCA-Attention为LLM长文本建模带来突破性进展
机器之心· 2025-06-08 08:21
核心观点 - 琶洲实验室与华南理工大学联合推出关键上下文感知注意力机制(CCA-Attention),在128K超长序列任务中推理速度达标准自注意力机制的7.9倍,键值缓存显存占用减少93% [1][3] - CCA-Attention通过全局池化注意力与局部保留注意力的协同设计,在降低计算量的同时保持长距离依赖建模能力,且无需修改模型结构或引入额外参数 [7][9] - 该方法在LLaMA2-7B模型上的实验显示,64K上下文长度下推理速度提升5.7倍,128K任务中KV Cache显存减少93% [26] 技术原理 - **全局感知池化模块**:将输入序列分组后提取核心token,将注意力计算维度从n降至m,实现线性计算复杂度 [12][14] - **局部保留模块**:确保每个token关注前w个原始token,捕捉细粒度局部上下文,与全局模块互补 [15] - **可微融合策略**:组合全局与局部模块的键值矩阵,形成统一注意力输出,保持完整可达性 [16][17] 性能优势 - 在LLaMA2-7B-80K模型上,LongBench-E基准测试平均得分22.24,优于StreamingLLM(14.94)和LM-Infinite(21.20) [22] - 多文档问答任务中,128K上下文长度下EM得分32.0,超越标准自注意力(30.3),推理延迟仅15.89秒(标准方法124.85秒) [24] - 基于Triton的底层加速实现端到端优化,预填充与解码阶段效率同步提升 [18] 行业对比 - 相比DeepSeek NSA需引入压缩模块和重新训练,CCA-Attention可直接替换现有注意力模块 [9] - 对比Kimi MoBA的块丢弃机制,CCA-Attention通过动态聚合关键上下文保留全局建模能力 [9] - 计算效率显著优于MInference等现有方法,128K任务显存占用仅为标准自注意力的7% [26] 应用前景 - 适用于LLaMA2等主流大模型,仅需少量微调即可集成,具备即插即用特性 [13] - 在代码生成、长文档问答等需超长上下文场景中表现突出,128K序列处理速度提升近8倍 [23][26] - 研究成果已被ICML 2025接收,代码与论文已开源 [8]
张津剑:投资中的频率与频谱 | 42章经
42章经· 2025-06-08 08:11
注意力机制与人类信息处理 - Transformer架构首次赋予机器注意力机制 推动AI技术飞跃 并促使人类重新审视自身信息感知方式 [1] - 人类感知-处理-行动系统存在巨大鸿沟:视网膜每秒接收10^9比特信息 大脑处理仅10^6比特 输出带宽仅10^1比特 [6][7] - 注意力机制作为主动过滤器 帮助人类在信息洪流中聚焦关键信号 但当前普遍面临机制崩溃导致独立判断能力丧失 [8][10] 社会分化与注意力失控 - 注意力失控导致世界分化加剧 体现为地缘政治冲突 贫富差距扩大及微观人际关系割裂 [1][3] - "拉尔森效应"普遍存在:信息输入输出端口过近导致信号循环啸叫 引发赛道投资极端化(过热或过冷) [12][13][14] - 创始人案例显示 专注冷门领域7年最终获得全球仅4张的国家牌照 验证注意力博弈价值 [19][20] AI与人类能力对比 - AI通过注意力机制实现能力飞跃 未来将具备全频谱感知能力(包括X光 伽马射线等人类不可感知频段) [34][35] - 人类局限性体现为:感知频谱仅占已知电磁波频谱1/10^9 依赖核磁共振等工具间接获取信息 [33] - 未来AI系统将是"传感器+Agent+具身智能"三位一体 需以AI为中心重构工作流而非简单赋能人类 [35][37][38] 人类在AI时代的核心价值 - 创造需求成为关键价值 需明确自身要解决的问题 而非依赖市场反馈贴标签 [40][42] - 审美作为超越多模态的处理结果 是人类独有的核心能力 能预判技术路径或感知潜在风险 [41][42][43] - 心力取代智力成为核心竞争力 优秀创始人特质体现为逆境坚持与克制 [44] 创业与投资启示 - 冷门领域存在未被充分估值的机会 需通过专注发现根本性变化(如2023年具身智能案例) [15][16][17] - 传感器技术将迎来爆发 创业者应探索人类未利用的数据频段(如α波 伽马射线) [34][35] - 区块链或成为Agent互联网的基础设施 当前多数项目仍错误围绕人类需求设计 [35][36]
SSM+扩散模型,竟造出一种全新的「视频世界模型」
机器之心· 2025-05-31 04:00
研究背景与核心创新 - 研究结合状态空间模型(SSM)、扩散模型和世界模型等前沿技术,开发出新型视频世界模型,实现长期记忆与空间一致性的平衡 [1][9] - 传统视频扩散模型受限于注意力机制,难以维持长期一致性,导致环境模拟失真 [3][4][6] - 创新点在于采用Mamba的逐块扫描方案,配合局部注意力机制,显著提升长期记忆能力同时保持计算效率 [9][15][16] 技术架构设计 - 采用空间主/时间次的token排序方式,确保因果约束并防止未来信息泄露 [11] - 提出逐块重新排序方法:将token序列分解为(b_h,b_w,T)块,通过调整块大小平衡时间相关性与空间一致性 [13][15] - 引入帧局部注意力模块,采用窗口大小为k的因果注意力机制增强短期一致性 [16] - 动作条件处理:通过MLP处理连续动作值,直接学习离散动作嵌入实现交互控制 [17] 训练与推理优化 - 改进训练方案:保持随机长度前缀完全无噪声,强制模型学习长期依赖性 [18] - 推理阶段仅需维护前k帧KV缓存和块SSM状态,实现恒定内存占用和生成速度 [21] - 训练成本随上下文长度线性增长,显著优于传统二次复杂度模型 [39] 实验性能表现 Memory Maze数据集 - 检索任务(400帧):SSIM达0.898,显著优于Mamba2(0.747)和因果Transformer(0.829) [25] - 推理任务(224帧):SSIM达0.855,优于所有次二次模型 [26] - 长期记忆能力与全上下文因果Transformer(SSIM 0.914)接近 [25][27] TECO Minecraft数据集 - 推理任务(50帧):SSIM达0.454,优于DFoT(0.450)和25帧上下文因果Transformer(0.417) [33] - 能准确预测已探索区域,而有限上下文模型失效 [36] 效率优势 - 训练时间线性扩展,推理保持恒定内存和计算成本 [39] - 单次前向传递速度显著快于全注意力机制 [39]