Workflow
稀疏注意力
icon
搜索文档
万亿的OpenAI,涨疯的Memory和新出炉的DeepSeek
傅里叶的猫· 2025-09-29 15:11
这篇文章,聊3个话题,实在是今天市场上这三个话题都太热了。 万亿的OpenAI 这个其实还是源自老黄上周的那个博客,认为OpenAI会成为下一个万亿美元巨头,这个话题的余温 还在,今天还有很多人在讨论。 OpenAI 计划斥资 1 万亿美元在全球建设数据中心,以满足未来对 20GW 以上计算能力的需求,每 GW 成本预计高达 500 亿美元。同时,英伟达计划向 OpenAI 投入高达 1000 亿美元,用于建设由 10GW 英伟达系统驱动的超级数据中心。此外,CoreWeave 等基础设施提供商也与 OpenAI 签署了价 值 65 亿美元的协议,使其总合作金额达 224 亿美元。微软也宣布将在英国投资 300 亿美元增强其 AI 基础设施。 当然对OpenAI的万亿市值,也有很多反对的看法,主要还是对OpenAI的盈利能力吃怀疑的态度,即 便是万亿市值,也是唯一一家亏钱的万亿美元公司。 且不论OpenAI亏损与否,但就各方的表态来看,AI的发展还是依旧被看好。笔者认为,随着国产卡 的性能和软件的优化,上一代NV卡的淘汰,后面国产AI卡的替代潮会来的非常猛烈。而相关的产 业,像柴发、液冷、服务器电源、高速背板 ...
反直觉: MoE混合专家模型和场景没什么关系
理想TOP2· 2025-08-28 16:01
混合专家模型(MoE)的核心机制 - MoE本质是稀疏注意力手段 旨在提高计算效率 实现小算力运行大模型的目标[1] - 通过提前选取对数据结果起决定作用的少量参数进行计算 近似实现全部参数计算效果 对最终输出影响极小[2] - 专家分配并非基于场景划分 而是数据驱动下的参数优化过程[1] 传统场景划分方式的局限性 - 固定场景对应专家模型会导致场景限制问题 遇到未见场景时无法处理[1] - 若按场景划分多个小模型分别训练 不符合MoE结构的本质设计[1] - 专人专用方式会造成参数利用率低下 部分专家可能永远无法被激活[2] 专家激活与分配机制 - 工作应均匀分配给每个专家 避免低触发率专家造成的参量浪费[2] - 每次可激活不同数量专家 实现算力动态分配[2] - 更难的问题可分配更多算力 同时提升效率和最终效果[2] 实际应用中的表现特征 - 不同专家可能自然形成特定场景偏好 但这是训练结果而非设计原因[3] - 高速场景可能频繁使用某子模型 超车场景可能使用另一子模型 这是数据驱动的自然分布[3] - 专家特长分化是模型训练的"果"而非主观设计的"因"[3]
R2还没来,但DeepSeek的秘密武器已经“剧透”了
虎嗅· 2025-07-31 07:58
行业技术突破 - DeepSeek与北京大学联合研发的"原生稀疏注意力(NSA)"技术获ACL最佳论文奖 该会议被公认为自然语言处理领域顶级风向标 [2][3][4] - NSA技术首次实现稀疏注意力在完整训练流程的应用 突破仅能用于推理阶段的限制 在27B模型上实现训练前向计算加速9倍 反向传播加速6倍 [5][23][44] - 该技术显著提升长文本处理效率 在64k上下文长度下推理速度提升11.6倍 同时保持模型性能不降反升 [5][16][45][46] 技术原理创新 - NSA采用三重机制模拟人类阅读行为:Token Compression压缩早期文本为摘要块 Token Selection精准选择相关原文细节 Sliding Window保留最近上下文精细注意力 [26][27][28] - 通过门控机制动态平衡三种阅读策略 实现硬件对齐优化 兼容GQA架构和FlashAttention-2内核 基于Triton重写关键kernel [30][31][52] - 原生可训练特性使稀疏模式与模型协同优化 在MMLU、GSM8K等9项基准测试中7项超越全注意力模型 DROP测试推理能力提升显著 [32][33][35][37] 性能表现数据 - 在64k长度(约8万字)"大海捞针"测试中实现100%信息检索准确率 LongBench评测平均分0.469超越全注意力基线的0.437 [38][40][41] - 上下文长度与加速比呈正相关:8192长度加速4倍 16384长度加速6.4倍 32768长度加速9.1倍 65536长度加速11.6倍 [46] - 传统注意力机制在64k上下文长度下占据70%-80%推理延迟 NSA通过稀疏化计算有效降低延迟 [18][43] 行业应用前景 - 技术已通过27B及MoE架构完整预训练验证 具备商业化落地条件 将应用于下一代DeepSeek大模型 [51][52][53] - 突破性提升长文本处理能力 支持整本书籍、多份财报、完整代码库的直接分析 无需人工拆分 [49][54] - 计算效率提升将传导至API成本降低 加速AI应用生态发展 [55][58][59]
知乎平台已沉淀858万个AI相关问题、2088万个AI专业回答丨聚焦WAIC 2025
国际金融报· 2025-07-27 12:23
知乎平台AI生态发展 - 知乎已成为AI开发者首发项目、首谈方向、首秀成果的核心阵地,聚集1600万科技与AI领域持续学习者和356万深度创作者,沉淀858万个AI相关问题和2088万个专业回答 [1] - 平台吸引DeepSeek、智元机器人、宇树等明星公司发布技术文章或新品动态,例如DeepSeek发布《DeepSeek-V3/R1推理系统概览》、稚晖君发布人形机器人灵犀X2、王兴兴分享宇树研发进展 [3] - AI创业者夕小瑶在知乎首发全球首个多Agent协作平台Teamo,字节跳动Trae 2.0核心开发者天猪分享AI结对编程技术 [3] WAIC 2025大会参与 - 知乎通过展位多维互动展示AI生态全景,包括硬核技术讨论和"知识王者PK"等趣味环节,知乎直答NFC装置成为人气焦点 [4] - 组织地平线研究员林天威、创伴智能创始人图灵的猫等数十位一线开发者组成"答主探展团",结合线上圆桌实时输出技术解读 [4] - 联合阿里云、百度、科大讯飞等14家AI企业发布《AI世界通行手册》,涵盖大模型到具身智能的科技全景 [4] AI技术前沿动态 - 月之暗面研发人员在知乎"团建式"分享技术进展,包括开源MoBA框架、Agent产品Kimi-researcher及MoE架构模型Kimi K2的研发历程 [3] - PNP机器人创始人包文涛指出大模型推动具身智能实质性突破,详解PNP机器人能力特点 [5] - AI Next联合创始人德里克文提出人类与AI共同创作新时代,曾合作AI艺术短片《花满渚》 [5] 创新活动形式 - 知乎在WAIC期间举办"开发者回血之夜"盐沙龙,数十位AI开发者通过开放麦形式分享前沿思考,融合技术与人文互动 [5]
3700 次预训练寻找 “线性注意力” 非共识,MiniMax-01 开发者讲述 4 年探索
晚点LatePost· 2025-03-09 12:00
线性注意力机制的发展历程 - 线性注意力机制从2021年开始探索,当时被视为"看起来很美好的泡泡",但公司团队坚持投入研发 [5][21] - 2023年底验证了15B规模的纯线性方案效果接近Transformer,但发现召回能力存在缺陷 [35] - 最终采用7层线性注意力混合1层Softmax注意力的架构,在4560亿参数模型上实现应用 [36][37] 技术优势与验证过程 - 线性注意力理论计算复杂度从二次降为线性,长序列处理速度比Full Attention快2700倍 [11][44] - 通过3700次预训练测试验证技术可行性,涵盖不同参数规模和架构方案 [41][42] - 在7B参数以上模型规模时,线性注意力优势开始明显显现 [16][17] 行业竞争格局 - 线性注意力与稀疏注意力是当前两大改进方向,2023年后线性方向热度上升 [17] - 公司认为线性架构上限更高,未来在长文本赛道具备优势 [50][51] - 目前行业对线性注意力仍存在非共识,部分认为其属于有损优化 [52][53] 产品化与战略布局 - 公司将80%研发资源投入线性架构模型开发,视为重大战略转型 [31][48] - 下一代计划推出深度推理原生多模态模型,预计4-5月发布 [58][60] - 开源4560亿参数模型MiniMax-01,但未提供小尺寸版本 [57] 技术挑战与解决方案 - 线性注意力存在GPU并行化难题,通过Lightning Attention提升实际运行效率 [22] - 召回能力缺陷通过混合架构解决,测试不同比例后选择1:7方案 [36][38] - 多模态实现采用adapter形式而非原生方案,以快速验证效果 [48]