Seek .-刚刚，DeepSeek梁文锋NSA论文、北大杨耀东团队摘得ACL 2025最佳论文

会议概况 - ACL 2025是第63届计算语言学和自然语言处理领域的顶级国际会议于2025年7月27日至8月1日在奥地利维也纳举行[1] - 今年总投稿数创历史之最高达8000多篇较去年的4407篇大幅增长主会论文和Findings的接收率分别为20.3%和16.7%[3] - 在所有论文的第一作者中超过半数作者来自中国占比达51.3% 而去年仅为30.6% 美国作者数量排名第二占比14.0%[3] 获奖论文 - 今年共评选出4篇最佳论文 2篇最佳社会影响力论文 3篇最佳资源论文 3篇最佳主题论文 26篇杰出论文 2篇TACL最佳论文 1篇最佳Demo论文以及47篇SAC Highlights[5] - 4篇最佳论文分别由DeepSeek团队（梁文锋参与撰写）北大杨耀东团队 CISPA亥姆霍兹信息安全中心&TCS Research&微软团队以及斯坦福大学&Cornell Tech团队获得[8] 最佳论文详情 - DeepSeek团队论文提出原生稀疏注意力机制NSA 用于超快长上下文训练和推断具有硬件对齐和本地可训练的特点[22][24] - 北大杨耀东团队论文从数据压缩角度揭示大模型存在抵抗对齐的弹性机制预训练越充分的模型弹性越强对齐难度远超预期[14][16] - CISPA等机构合作论文提出通过差异意识视角研究算法公平性构建包含16000个问题的基准套件评估差异意识[9][13] - 斯坦福大学等机构论文研究LLM在自主决策中的采样行为发现其与人类决策启发式方法相似存在向规范性成分的偏差[9][11] 技术突破 - NSA注意力机制通过分层token建模和组织键值成时间块在260B token的27B参数Transformer上预训练实现与Full Attention相当性能同时显著加速[24][25][28] - 模型对齐研究指出后训练所需资源与算力可能需要与预训练阶段相当甚至更多对AI安全与对齐提出严峻挑战[16] - 稀疏注意力设计有效平衡模型能力和计算效率解码前向和后向阶段加速比随序列长度增加而增加[28] 行业影响 - 华人团队在ACL 2025表现突出中国作者占比超过半数在最佳论文等重要奖项中占据显著位置[3][8] - 大模型安全对齐研究成果获得ACL 2025审稿人及大会主席高度认可被认为提供新的理论视角与坚实基础[17] - 注意力机制研究持续突破 DeepSeek提出的NSA架构为长上下文建模提供高效解决方案推动下一代LLM发展[22][24]