稀疏注意力 - 财报，业绩电话会，研报，新闻

稀疏注意力

搜索文档

傅里叶的猫· 2025-09-29 15:11

这篇文章，聊3个话题，实在是今天市场上这三个话题都太热了。万亿的OpenAI 这个其实还是源自老黄上周的那个博客，认为OpenAI会成为下一个万亿美元巨头，这个话题的余温还在，今天还有很多人在讨论。 OpenAI 计划斥资 1 万亿美元在全球建设数据中心，以满足未来对 20GW 以上计算能力的需求，每 GW 成本预计高达 500 亿美元。同时，英伟达计划向 OpenAI 投入高达 1000 亿美元，用于建设由 10GW 英伟达系统驱动的超级数据中心。此外，CoreWeave 等基础设施提供商也与 OpenAI 签署了价值 65 亿美元的协议，使其总合作金额达 224 亿美元。微软也宣布将在英国投资 300 亿美元增强其 AI 基础设施。当然对OpenAI的万亿市值，也有很多反对的看法，主要还是对OpenAI的盈利能力吃怀疑的态度，即便是万亿市值，也是唯一一家亏钱的万亿美元公司。且不论OpenAI亏损与否，但就各方的表态来看，AI的发展还是依旧被看好。笔者认为，随着国产卡的性能和软件的优化，上一代NV卡的淘汰，后面国产AI卡的替代潮会来的非常猛烈。而相关的产业，像柴发、液冷、服务器电源、高速背板 ...

反直觉: MoE混合专家模型和场景没什么关系

理想TOP2· 2025-08-28 16:01

混合专家模型(MoE)的核心机制 - MoE本质是稀疏注意力手段旨在提高计算效率实现小算力运行大模型的目标[1] - 通过提前选取对数据结果起决定作用的少量参数进行计算近似实现全部参数计算效果对最终输出影响极小[2] - 专家分配并非基于场景划分而是数据驱动下的参数优化过程[1] 传统场景划分方式的局限性 - 固定场景对应专家模型会导致场景限制问题遇到未见场景时无法处理[1] - 若按场景划分多个小模型分别训练不符合MoE结构的本质设计[1] - 专人专用方式会造成参数利用率低下部分专家可能永远无法被激活[2] 专家激活与分配机制 - 工作应均匀分配给每个专家避免低触发率专家造成的参量浪费[2] - 每次可激活不同数量专家实现算力动态分配[2] - 更难的问题可分配更多算力同时提升效率和最终效果[2] 实际应用中的表现特征 - 不同专家可能自然形成特定场景偏好但这是训练结果而非设计原因[3] - 高速场景可能频繁使用某子模型超车场景可能使用另一子模型这是数据驱动的自然分布[3] - 专家特长分化是模型训练的"果"而非主观设计的"因"[3]

R2还没来，但DeepSeek的秘密武器已经“剧透”了

虎嗅· 2025-07-31 07:58

行业技术突破 - DeepSeek与北京大学联合研发的"原生稀疏注意力(NSA)"技术获ACL最佳论文奖该会议被公认为自然语言处理领域顶级风向标 [2][3][4] - NSA技术首次实现稀疏注意力在完整训练流程的应用突破仅能用于推理阶段的限制在27B模型上实现训练前向计算加速9倍反向传播加速6倍 [5][23][44] - 该技术显著提升长文本处理效率在64k上下文长度下推理速度提升11.6倍同时保持模型性能不降反升 [5][16][45][46] 技术原理创新 - NSA采用三重机制模拟人类阅读行为：Token Compression压缩早期文本为摘要块 Token Selection精准选择相关原文细节 Sliding Window保留最近上下文精细注意力 [26][27][28] - 通过门控机制动态平衡三种阅读策略实现硬件对齐优化兼容GQA架构和FlashAttention-2内核基于Triton重写关键kernel [30][31][52] - 原生可训练特性使稀疏模式与模型协同优化在MMLU、GSM8K等9项基准测试中7项超越全注意力模型 DROP测试推理能力提升显著 [32][33][35][37] 性能表现数据 - 在64k长度(约8万字)"大海捞针"测试中实现100%信息检索准确率 LongBench评测平均分0.469超越全注意力基线的0.437 [38][40][41] - 上下文长度与加速比呈正相关：8192长度加速4倍 16384长度加速6.4倍 32768长度加速9.1倍 65536长度加速11.6倍 [46] - 传统注意力机制在64k上下文长度下占据70%-80%推理延迟 NSA通过稀疏化计算有效降低延迟 [18][43] 行业应用前景 - 技术已通过27B及MoE架构完整预训练验证具备商业化落地条件将应用于下一代DeepSeek大模型 [51][52][53] - 突破性提升长文本处理能力支持整本书籍、多份财报、完整代码库的直接分析无需人工拆分 [49][54] - 计算效率提升将传导至API成本降低加速AI应用生态发展 [55][58][59]

Seek .(US:SKLTY)

稀疏注意力

大语言模型

Artificial Intelligence

DeepSeek系列大模型

NSA（Natively Sparse Attention

原生稀疏注意力）

稀疏注意力

大语言模型

Artificial Intelligence

DeepSeek系列大模型

NSA（Natively Sparse Attention

原生稀疏注意力）

国际金融报· 2025-07-27 12:23

知乎平台AI生态发展 - 知乎已成为AI开发者首发项目、首谈方向、首秀成果的核心阵地，聚集1600万科技与AI领域持续学习者和356万深度创作者，沉淀858万个AI相关问题和2088万个专业回答 [1] - 平台吸引DeepSeek、智元机器人、宇树等明星公司发布技术文章或新品动态，例如DeepSeek发布《DeepSeek-V3/R1推理系统概览》、稚晖君发布人形机器人灵犀X2、王兴兴分享宇树研发进展 [3] - AI创业者夕小瑶在知乎首发全球首个多Agent协作平台Teamo，字节跳动Trae 2.0核心开发者天猪分享AI结对编程技术 [3] WAIC 2025大会参与 - 知乎通过展位多维互动展示AI生态全景，包括硬核技术讨论和"知识王者PK"等趣味环节，知乎直答NFC装置成为人气焦点 [4] - 组织地平线研究员林天威、创伴智能创始人图灵的猫等数十位一线开发者组成"答主探展团"，结合线上圆桌实时输出技术解读 [4] - 联合阿里云、百度、科大讯飞等14家AI企业发布《AI世界通行手册》，涵盖大模型到具身智能的科技全景 [4] AI技术前沿动态 - 月之暗面研发人员在知乎"团建式"分享技术进展，包括开源MoBA框架、Agent产品Kimi-researcher及MoE架构模型Kimi K2的研发历程 [3] - PNP机器人创始人包文涛指出大模型推动具身智能实质性突破，详解PNP机器人能力特点 [5] - AI Next联合创始人德里克文提出人类与AI共同创作新时代，曾合作AI艺术短片《花满渚》 [5] 创新活动形式 - 知乎在WAIC期间举办"开发者回血之夜"盐沙龙，数十位AI开发者通过开放麦形式分享前沿思考，融合技术与人文互动 [5]

3700 次预训练寻找 “线性注意力” 非共识，MiniMax-01 开发者讲述 4 年探索

晚点LatePost· 2025-03-09 12:00

线性注意力机制的发展历程 - 线性注意力机制从2021年开始探索，当时被视为"看起来很美好的泡泡"，但公司团队坚持投入研发 [5][21] - 2023年底验证了15B规模的纯线性方案效果接近Transformer，但发现召回能力存在缺陷 [35] - 最终采用7层线性注意力混合1层Softmax注意力的架构，在4560亿参数模型上实现应用 [36][37] 技术优势与验证过程 - 线性注意力理论计算复杂度从二次降为线性，长序列处理速度比Full Attention快2700倍 [11][44] - 通过3700次预训练测试验证技术可行性，涵盖不同参数规模和架构方案 [41][42] - 在7B参数以上模型规模时，线性注意力优势开始明显显现 [16][17] 行业竞争格局 - 线性注意力与稀疏注意力是当前两大改进方向，2023年后线性方向热度上升 [17] - 公司认为线性架构上限更高，未来在长文本赛道具备优势 [50][51] - 目前行业对线性注意力仍存在非共识，部分认为其属于有损优化 [52][53] 产品化与战略布局 - 公司将80%研发资源投入线性架构模型开发，视为重大战略转型 [31][48] - 下一代计划推出深度推理原生多模态模型，预计4-5月发布 [58][60] - 开源4560亿参数模型MiniMax-01，但未提供小尺寸版本 [57] 技术挑战与解决方案 - 线性注意力存在GPU并行化难题，通过Lightning Attention提升实际运行效率 [22] - 召回能力缺陷通过混合架构解决，测试不同比例后选择1:7方案 [36][38] - 多模态实现采用adapter形式而非原生方案，以快速验证效果 [48]

线性注意力

稀疏注意力

Transformer

Artificial Intelligence

Artificial Intelligence

MiniMax-01

Lightning Attention