Workflow
稀疏注意力机制
icon
搜索文档
刚刚,DeepSeek梁文锋NSA论文、北大杨耀东团队摘得ACL 2025最佳论文
36氪· 2025-07-31 03:40
会议概况 - ACL 2025是第63届计算语言学和自然语言处理领域的顶级国际会议 于2025年7月27日至8月1日在奥地利维也纳举行[1] - 今年总投稿数创历史之最 高达8000多篇 较去年的4407篇大幅增长 主会论文和Findings的接收率分别为20.3%和16.7%[3] - 在所有论文的第一作者中 超过半数作者来自中国 占比达51.3% 而去年仅为30.6% 美国作者数量排名第二 占比14.0%[3] 获奖论文 - 今年共评选出4篇最佳论文 2篇最佳社会影响力论文 3篇最佳资源论文 3篇最佳主题论文 26篇杰出论文 2篇TACL最佳论文 1篇最佳Demo论文以及47篇SAC Highlights[5] - 4篇最佳论文分别由DeepSeek团队(梁文锋参与撰写) 北大杨耀东团队 CISPA亥姆霍兹信息安全中心&TCS Research&微软团队以及斯坦福大学&Cornell Tech团队获得[8] 最佳论文详情 - DeepSeek团队论文提出原生稀疏注意力机制NSA 用于超快长上下文训练和推断 具有硬件对齐和本地可训练的特点[22][24] - 北大杨耀东团队论文从数据压缩角度揭示大模型存在抵抗对齐的弹性机制 预训练越充分的模型弹性越强 对齐难度远超预期[14][16] - CISPA等机构合作论文提出通过差异意识视角研究算法公平性 构建包含16000个问题的基准套件评估差异意识[9][13] - 斯坦福大学等机构论文研究LLM在自主决策中的采样行为 发现其与人类决策启发式方法相似 存在向规范性成分的偏差[9][11] 技术突破 - NSA注意力机制通过分层token建模和组织键值成时间块 在260B token的27B参数Transformer上预训练 实现与Full Attention相当性能同时显著加速[24][25][28] - 模型对齐研究指出后训练所需资源与算力可能需要与预训练阶段相当甚至更多 对AI安全与对齐提出严峻挑战[16] - 稀疏注意力设计有效平衡模型能力和计算效率 解码 前向和后向阶段加速比随序列长度增加而增加[28] 行业影响 - 华人团队在ACL 2025表现突出 中国作者占比超过半数 在最佳论文等重要奖项中占据显著位置[3][8] - 大模型安全对齐研究成果获得ACL 2025审稿人及大会主席高度认可 被认为提供新的理论视角与坚实基础[17] - 注意力机制研究持续突破 DeepSeek提出的NSA架构为长上下文建模提供高效解决方案 推动下一代LLM发展[22][24]
无需训练,即插即用,2倍GPU端到端推理加速——视频扩散模型加速方法DraftAttention
机器之心· 2025-06-28 04:35
视频生成模型效率瓶颈 - 扩散模型在高质量视频生成任务中已成为主流,但DiT模型中的注意力机制计算量随视频长度和分辨率提升急剧增加,成为推理效率最大瓶颈 [1] - 视频生成中DiT通常使用3D全局注意力建模时空一致性,计算量随token数量呈平方增长,生成8秒720p视频需要接近一小时 [1] - 在HunyuanVideo等模型中,注意力模块计算时间占比超过80% [1] 现有加速方法局限性 - 现有稀疏注意力方法如Sparse VideoGen和AdaSpa在GPU上实现了一定加速,但受限于稀疏度不足和稀疏模式设计刚性,效果不理想 [2] - 这些方法依赖固定稀疏算子,缺乏对输入内容的动态适应能力,难以实现细粒度、内容感知的稀疏模式调控 [2] DraftAttention创新方案 - 研究团队提出无需训练、即插即用的动态稀疏注意力方法DraftAttention,实现高达2倍的GPU端到端推理加速 [3] - 核心思想是通过低分辨率"草图注意力图"估计token重要性,指导高分辨率注意力计算中的稀疏模式选择 [11] - 具体流程包括草图构建、草图注意力计算、稀疏模式引导、Token重排以适配硬件等步骤 [12][13] - 该方法可直接插入现有视频扩散模型如HunyuanVideo和Wan2.1中,无需额外训练或微调 [13] 理论验证 - 使用平均池化构建的Draft Attention Map与原始高分辨率Attention Map之间的差异在Frobenius范数意义下有界 [15] - 从Draft Attention Map提取的稀疏注意力模式影响可被严格界定在可控范围内 [15] 实验结果 - 在HunyuanVideo和Wan2.1模型上测试,DraftAttention在高稀疏率(75%~90%)下能更好保留视频时空一致性和关键结构 [20] - 在H100和A100 GPU上实现最高1.75倍端到端推理加速,加速效果随视频长度、分辨率和稀疏率提升 [22] - PSNR在高分辨率下提升约+2~+3分,SSIM一致性更强,LPIPS感知相似度提升 [21] 未来方向 - 计划结合量化与蒸馏等技术,继续优化长视频生成效率瓶颈,推动高质量视频生成模型走向移动端、边缘端等资源受限场景 [47]
0.5B以小搏大拿下端侧模型新SOTA:4090可跑,长文本处理5倍常规加速丨清华&面壁开源
量子位· 2025-06-10 07:35
模型性能与效率 - MiniCPM4提供8B和0.5B两种参数规模,仅使用同级别开源模型22%的训练开销就达到同级别最优性能 [1] - MiniCPM4-8B是首个开源原生稀疏模型,5%极高稀疏度支持长文本和深思考在端侧运行 [2] - 在MMLU等基准测试中,MiniCPM4-8B性能比肩Qwen-3-8B,超越Gemma-3-12B;0.5B版本超越同级Qwen-3-0.6B等模型 [3] - 在端侧芯片上实现长文本处理5倍常规加速与极限场景百倍加速 [4] 技术创新架构 - 采用高效稀疏注意力架构InfLLM v2,保持性能同时实现高效长上下文处理 [8] - InfLLM v2不引入额外参数,短序列推理速度不受影响 [10] - 相比NSA减少60%上下文选择计算成本 [11] - 上下文分块分区域处理,实现注意力层智能化选择机制 [14] 推理加速技术 - 构建轻量化CUDA推理框架CPM.cu与跨平台部署框架ArkInfer [20] - 提出FR-Spec词表剪枝技术,降低75%计算开销,实现2倍生成加速 [26][28][29] - 开发前缀感知GPTQ方法,排除初始词元干扰提升量化质量 [31][32] - 采用位置感知校准策略,消除初始词元统计偏差 [33] 数据与训练优化 - 仅使用8T词元达到Qwen3用36T词元的效果 [56] - 提出UltraClean高能力密度数据筛选方法,构建1T+高质量中英文语料 [61][71] - 开发UltraChat-v2合成数据框架,覆盖知识应用等五大技能领域 [77] - ModelTunnel v2预训练策略搜索仅需32GPU机时,大幅降低超参数搜索开销 [88] 应用场景表现 - 在Jetson AGX Orin上实现7倍解码加速,长序列处理优势明显 [108][109] - MiniCPM4-8B超越Gemma3-12B和Phi4-14B,0.5B版本超越Llama3.2-1B [114] - 训练数据量仅为Qwen3的22%但性能相当 [116] - 在128K上下文窗口达到100%准确率,稀疏度仅5% [119]
月之暗面 MoBA 核心作者自述:一个 “新晋大模型训练师” 的三入思过崖
晚点LatePost· 2025-02-20 14:21
注意力机制优化进展 - Kimi和DeepSeek同日发布注意力机制改进成果MoBA和NSA,均针对Transformer核心组件"注意力机制"进行创新[2] - 标准全注意力机制存在计算复杂度随文本长度平方级增长的问题,成为制约长上下文能力的关键瓶颈[4] - 行业出现两大优化方向:稀疏注意力机制(如NSA/MoBA/InfLLM)和线性注意力机制(如MiniMax-01),前者侧重稳健优化,后者尝试根本性解决计算爆炸问题[5] MoBA技术演进 - 项目始于2023年5月,初始目标为支持16K长度预训练,后升级至128K需求,经历v0.5到v2三次架构迭代[6][12][16] - 关键技术突破包括:采用Online Softmax实现与全注意力机制的可对照调试、解决注意力汇聚点问题、最终形成极简单层稀疏注意力结构[13][16] - 在1M长度测试中达到与全注意力机制持平的性能指标,已部署至Kimi生产环境[20] 行业竞争格局 - 中国头部AI公司密集发布注意力机制创新:MiniMax-01采用线性注意力,面壁智能InfLLM被NSA论文引用[5] - 微软亚研院专家指出稀疏注意力与线性注意力的本质差异:前者保留复杂依赖关系捕捉能力,后者可能牺牲部分长程关联性[5] - 清华大学团队证实NSA和MoBA均采用动态注意力选择机制,相比静态方法显著提升模型性能[5] 工程实现细节 - MoBA开源代码已在GitHub发布,包含完整工程实现与技术论文,实际经过1年多线上验证[6][25] - 解码阶段对MHA效果最佳(IO优化达理论最大值),但对GQA/MQA效果递减[22] - Triton实现版本曾获得10%+性能提升,但因维护成本过高暂未持续优化[24] 研发方法论 - 采用"饱和救援"模式推进技术攻坚,整合跨团队资源进行多轮消融实验[15][19] - 通过"思过崖"机制实现快速试错与迭代,三次关键架构调整分别解决参数膨胀、训练不稳定和SFT效率问题[8][13][19] - 最终方案保留数学严谨性(支持全注意力模式对照)与工程实用性(单机/分布式兼容)的双重优势[16][20]