FlashMLA

搜索文档
Mamba核心作者新作:取代DeepSeek在用的注意力机制,专为推理打造
量子位· 2025-06-01 03:40
核心观点 - 提出两种新型注意力机制GTA和GLA,在保持模型性能不变的情况下,解码速度和吞吐量最高提升2倍,显著优化长上下文推理能力[1][2][5] - GTA是GQA的有效替代品,KV缓存用量减少约50%[2][3][25] - GLA是MLA的实用替代品,解码速度更快,某些情况下比FlashMLA快2倍[2][3][29] 注意力机制优化 - 针对推理阶段的内存冗余、计算低效、长上下文瓶颈等问题重新设计注意力机制[8] - GTA通过参数绑定实现更彻底的KV重复利用,减少内存传输次数[15][16] - GLA采用双层结构,提高硬件效率并保持并行可扩展性[17][18] 实验验证 - 在四种规模模型(183M-1471M)上测试,GTA在中大型模型上优于GQA,GLA与MLA质量相当[21][22] - GTA相比GQA减少约50%的KV缓存,验证参数绑定+分组重用的有效性[25][26] - GLA在序列长度从1K增加到64K时,解码速度比FlashMLA快2倍[29] - 在DeepSeek Coder V2 Base模型上,GLA-8在长上下文处理中吞吐量明显高于MLA[33] 作者背景 - 三位作者均来自普林斯顿大学,Tri Dao因提出Mamba架构和FlashAttention系列工作闻名学界[38][44][46][47] - Tri Dao是生成式AI初创公司Together AI的首席科学家[44] - 其他作者Ted Zadouri和Hubert Strauss在机器学习和Transformer优化方面有丰富经验[39][40][41][42][43]
中金 | AI智道(7):DeepSeek Infra开源周总结,及算力测算一览
中金点睛· 2025-03-16 23:55
文章核心观点 - 2025年2月24 - 28日DeepSeek进行Infra开源周,其Infra工程优化能力国内领先,通过五大Infra核心技术构建大模型 - 算力全栈协同体系,实现大模型开发成本大幅压缩;成本及算力测算显示其毛利率水平国内领先;Infra优化能力推动大模型平权,对推理算力需求有积极影响,AI应用商业化更取决于模型能力和工程优化 [2][3] DeepSeek开源周:Infra层优化能力行业领先 全栈协同体系 - DeepSeek开源周深度适配GPU特性,通过五大Infra核心技术构建大模型 - 算力全栈协同体系,以“单卡算力提升 - 核心计算加速 - 通信延迟降低 - 多卡协作优化 - 数据流高速供给”为脉络形成优化闭环,提升千亿参数模型训练、推理效率,压缩开发成本 [2][6] 每日成果 - **Day1**:发布为英伟达Hopper GPU设计的MLA解码内核FlashMLA,实现MoE模型推理加速,针对变长序列处理等场景优化,核心创新含分页KV缓存、分块调度与内存优化、原生稀疏注意力,实测在H800 SXM5平台有顶尖性能表现 [8] - **Day2**:发布DeepEP,为MoE模型和专家并行设计的专用通信库,支持FP8低精度通信,有高效优化的all - to - all通信、支持NVLink和RDMA技术等特点,实现训练和推理高吞吐、低延迟 [9] - **Day3**:发布DeepGEMM,针对FP8通用矩阵乘法打造,支持密集GEMM和MoE GEMM,采用CUDA核心两级累加机制,核心优化包括线程束优化、利用Hopper TMA特点、特殊优化等,在H800上最高可实现2.7倍加速 [10] - **Day4**:开源DualPipe、EPLB和Profile - data。DualPipe是双向流水线并行算法,通过重叠计算与通信阶段提升训练性能;EPLB是专家并行负载均衡器,用冗余专家策略和组限制专家路由解决负载不均衡问题;Profile - data展示通信计算重叠策略和低级实现细节 [13][14][16] - **Day5**:开源3FS和Smallpond。3FS是高性能分布式文件系统,利用SSD和RDMA网络,在性能、可用性和多样化工作负载方面有优势;Smallpond是基于DuckDB和3FS的轻量级数据处理框架,具备高性能、易操作、可扩展特点 [21][22] DeepSeek成本及算力测算:毛利率水平领先 成本与毛利率测算 - DeepSeek 3月1日公开模型推理效率和成本,过去24小时DeepSeek V3和R1推理服务峰值占用278个节点,平均占用226.75个节点,处理608B输入Token和168B输出Token,总体GPU hours成本8.7万美元;以模型API定价测算收入、GPU hours租赁成本为核心成本项,综合毛利率在71 - 84.5%,处于行业领先水平 [24] 利润率对比 - 理想情况计算的DeepSeek毛利率较高,但实际因部分Token不收费,整体毛利率会降低;海外OpenAI和Anthropic API服务按仅扣GPU Hours口径计算毛利率也领先;其他云厂商为保证稳定性提供冗余算力,集群负载率难达DeepSeek水平,底层优化不足,会损失部分毛利率 [25] 对产业影响 - 推理算力方面,AI infra进步提升算力利用效率,推动行业繁荣,多模态、Manus等Agent应用会激发更大推理算力需求;AI应用方面,模型推理成本降低,商业化更取决于模型能力迭代和合适场景打磨,2C看好互联网大厂产品化进展,2B关注企业服务厂商客户场景磨合,期待2025年出现更多“爆款”AI应用 [26]
DeepSeek再开源,关注AI应用变化
华泰证券· 2025-03-03 13:25
行业投资评级 - 计算机行业评级为增持(维持)[7] 核心观点 - DeepSeek在6天内连续开源Infra层核心代码 涉及MLA 通信-计算 矩阵乘法运算 专家负载 文件存取等模块优化 旨在提高模型和硬件效率[1] - 开源优化使理论成本利润率达545% 考虑V3定价和夜间折扣等因素 付费token占比50%时测算成本利润率有望达108%[1] - 模型层持续优化有望降低应用层成本并提升应用表现 建议关注拥有用户 数据和场景优势的2B和2C应用公司[1] - 海外厂商以大算力探求边界提升 如xAI将GPU集群从10万卡扩至20万卡训练Grok-3 OpenAI发布GPT-4 5 国内则更注重软硬件效率优化[4] - 模型能力未来或成为基础资源 应用公司优势显著[5] 开源内容总结 - Day 1开源FlashMLA 用于减少训推成本 针对可变长度序列优化 H800上内存限制3000 GB/s 计算限制580 TFLOPS 并适配摩尔线程 海光 天数GPU[12] - Day 2开源DeepEP 提高MoE模型通信速度 支持节点内NVLink和节点间RDMA通信 支持FP8低精度运算[12] - Day 3开源DeepGEMM 优化FP8矩阵乘法运算 在大多数矩阵大小中优于专家调优内核[12] - Day 4开源DualPipe 提高通信和计算效率 实现前向和后向计算通信阶段完全重叠 同时开源EPLB平衡专家负载提升算力效率 以及Profiling Data揭示框架配置方法[12] - Day 5开源3FS 揭示高效文件存取方法 利用SSD和RDMA网络提供共享存储[12] - Day 6开源DeepSeek V3/R1推理系统概述 直接揭示推理效率细节 每个H800节点每秒处理73 7k输入或14 8k输出token[12] 性能与成本数据 - DeepSeek官方数据显示 输入token 608B 其中342B token(56 3%)命中缓存 输出token 168B[17] - 使用278个峰值H800节点(每节点8卡) 平均占用226 75个节点 H800租赁成本每小时2美元 日总成本87,072美元[17] - 所有请求按R1定价计费时日总收入562,027美元 成本利润率545%[17] - 考虑V3定价半价 仅API收费 夜间折扣等因素 华泰测算付费token占比50%时收入181,115美元 成本利润率108%[22] 国内外模型对比 - DeepSeek-R1在GPQA(science)达71 5% AIME 24(math)达79 8% MMLU-Pro达75 9%[23] - GPT-4 5在GPQA(science)达71 4% MMLU-Pro达85 1% MMMU(multimodal)达74 4%[23] - o3-mini(high)在GPQA(science)达79 7% AIME 24(math)达87 3%[23] 产业链标的 - 推荐公司:金山办公(目标价351 05元) 同花顺(目标价425 23元) 用友网络(目标价16 12元)[10] - 2C应用包括三六零 合合信息 2B应用包括汉得信息 新致软件 能科科技 数据中台包括星环科技 普元信息[5] 用户数据 - DeepSeek移动端日活最高达4,179万人(2/6) PC端日活最高达1,600万人(2/5)[20] - 移动端日活占ChatGPT比例最高76 26%(2/10) PC端日活占ChatGPT比例最高23 72%(1/30)[20]
电子行业周报:DeepSeek开源周发布五大技术
爱建证券· 2025-03-03 10:52
报告行业投资评级 - 电子行业评级为"强于大市" [1] 核心观点 - DeepSeek开源周发布五大技术,包括FlashMLA、DeepEP、DeepGEMM、Optimized Parallelism Strategies和3FS,显著提升AI模型推理和训练效率 [6][9][16][19][23] - OpenAI发布GPT-4 5,计算效率较GPT-4提升10倍,但API成本高达75美元/百万tokens输入、150美元/百万tokens输出 [34] - 三星与长江存储签署3D NAND混合键合专利许可协议,计划2025年下半年量产堆叠层数达420-430层的V10 NAND [40] - 英伟达2025Q4营收393亿美元,同比增长78%,数据中心业务收入356亿美元,同比增长93% [30][32] - 阿里巴巴宣布未来三年投入3800亿元建设云和AI硬件基础设施 [36] 行业动态与技术进展 DeepSeek开源技术 - FlashMLA在H800平台上实现3000GB/s数据吞吐与580 TFLOPS算力,性能较FlashAttention-2提升近2倍 [6][8] - DeepEP在NVLink环境下实现153GB/s的分发带宽和158GB/s的合并带宽,RDMA环境下稳定在43-46GB/s [11][12] - DeepGEMM计算性能达1358 TFLOPS,内存带宽最高2668 GB/s,较CUTLASS 3 6优化最高提速2 7倍 [16][17] - 3FS在25节点集群GraySort基准测试中实现3 66 TiB/min吞吐量,键值缓存查找峰值吞吐量超40 GiB/s [23][27] 全球产业动态 - 英伟达GeForce RTX 50系列GPU性能较上一代提升最高2倍 [31] - 台积电CoWoS-L先进封装产能被英伟达包下七成,预计全年出货量突破200万颗 [37] - 天科合达与慕德微纳合作开发SiC基AR衍射光波导镜片,单层镜片可实现80°以上全彩视场角 [41] 市场表现 - 本周电子行业涨跌幅-4 9%,排名28/31,半导体材料子行业涨幅+0 4% [2][47] - 费城半导体指数本周跌11 7%,恒生指数涨1 6% [51][52] - SW电子个股涨幅前三:翱捷科技+30 0%、芯原股份+27 4%、卓翼科技+26 4% [48]
爱建证券电子行业周报:DeepSeek开源周发布五大技术
爱建证券· 2025-03-03 10:10
行业投资评级 - 电子行业评级为"强于大市" [1] 核心观点 - DeepSeek开源周发布五大技术,包括FlashMLA、DeepEP、DeepGEMM、Optimized Parallelism Strategies和3FS,显著提升AI模型训练和推理效率 [6][9][11][16][19][23][28] - OpenAI发布GPT-4.5,计算效率较GPT-4提升10倍,但API成本高达75美元/百万tokens输入、150美元/百万tokens输出 [34][35] - 三星与长江存储签署3D NAND混合键合专利许可协议,计划2025年下半年量产420-430层V10 NAND [40] - 英伟达2025财年Q4营收393亿美元,同比增长78%,数据中心业务收入356亿美元,同比增长93% [30][32] - 阿里巴巴宣布未来三年投入3800亿元建设云和AI硬件基础设施 [36] - 台积电先进封装订单激增,英伟达包下七成CoWoS-L产能,预计全年出货量突破200万颗 [37] 目录分组总结 1 DeepSeek开源周发布五大技术 - **FlashMLA**:为Hopper架构GPU设计的高效MLA解码内核,在H800平台上实现3000GB/s数据吞吐与580 TFLOPS算力,性能较FlashAttention-2提升2倍 [6][8] - **DeepEP**:优化MoE模型训练和推理,节点内通信带宽达153GB/s(NVLink),节点间稳定在43-46GB/s(RDMA) [11][12] - **DeepGEMM**:FP8矩阵运算库,计算性能达1358 TFLOPS,加速比最高2.7倍 [16][17] - **Optimized Parallelism Strategies**:包含DualPipe和EPLB技术,优化并行计算和负载均衡 [19][21] - **3FS**:分布式文件系统,聚合读取吞吐量6.6 TiB/s,GraySort基准测试吞吐量3.66 TiB/分钟 [23][26] 2 全球产业动态 - **英伟达财报**:2025财年收入1305亿美元,同比增长114%,数据中心业务收入1152亿美元,同比增长142% [30][32] - **OpenAI GPT-4.5**:SimpleQA基准测试准确率62.5%,幻觉率37.1%,API成本为GPT-4o的30倍 [34][35] - **三星与长江存储**:合作开发420-430层V10 NAND,采用W2W混合键合技术 [40] - **阿里巴巴**:未来三年投入3800亿元建设云和AI基础设施 [36] - **台积电**:英伟达包下七成CoWoS-L产能,预计全年出货量200万颗 [37] - **SiC AR眼镜**:天科合达与慕德微纳合作,利用碳化硅衬底实现80°全彩视场角 [41][42] 3 本周市场回顾 - **SW一级行业**:钢铁(+3.2%)、房地产(+2.2%)、食品饮料(+1.8%)领涨,电子行业下跌4.9%,排名28/31 [44][47] - **SW三级行业**:半导体材料(+0.4%)、数字芯片设计(-2.1%)、半导体设备(-3.4%)表现较好 [47][48] - **海外市场**:费城半导体指数下跌11.7%,恒生指数上涨1.6% [51][53]
DeepSeek开源引领AI普惠化浪潮
Wind万得· 2025-03-02 22:40
DeepSeek开源策略影响 - DeepSeek成立于2023年,由幻方量化孵化,专注于大语言模型开发,已发布DeepSeek Coder、DeepSeek LLM、DeepSeek V3、DeepSeek R1等多款产品 [2] - DeepSeek V3训练成本仅557.6万美元,性能比肩GPT 4o和Claude-3.5-Sonnet,但成本远低于GPT 4o [2] - DeepSeek R1训练成本仅为同类模型的1/30,性能达到OpenAI o1水平,竞技场评分为1362分 [2][3] - 开源周期间发布FlashMLA、DeepEP、DeepGEMM等代码库,优化DualPipe、EPLB并行策略和3FS文件系统,提升算力效率 [5] - FlashMLA在H800 GPU上实现3000GB/s内存带宽和580TFLOPS计算性能,突破硬件极限 [6] 全球AI大模型进展 - DeepSeek R1发布后7天内用户增长1亿,周活跃用户环比增长超750%,远超Kimi的28%增速 [7] - 武汉市出台政策支持AI关键技术突破,单个项目最高资助2000万元 [7] - xAI发布Grok 3,计算能力提升10倍,支持图像分析和多模态处理,并免费开放 [8] - OpenAI发布GPT-4.5,输入/输出价格达75/150美元/百万token,为GPT-4o的30倍,在事实性问答表现优异但学术推理不及Claude 3.7 Sonnet和DeepSeek R1 [9] - GPT-4.5显示单纯扩大模型规模未必提升全面性能,OpenAI计划将GPT-5转向模型架构优化和功能融合 [10] AI大模型投融动态 - OpenAI拟融资400亿美元,头部企业仍主导资本流向 [14] - 低成本高性能模型改变估值逻辑,中小厂商可通过垂直领域创新获得机会 [14] - 投资重心转向AI应用层(金融、医疗、法律等)和Agent开发,2025年国内亿元级融资包括极睿科技(近1亿人民币B+轮)、源络科技(数亿人民币A轮)等 [15][16]
传媒行业周报:GPT-4.5发布,DeepSeek“开源周”收官
国盛证券· 2025-03-02 02:55
报告行业投资评级 - 增持(维持) [6] 报告的核心观点 - 本周(2.24 - 2.28)中信一级传媒板块下跌 8.06%,在市场影响下有所回调 [1][10] - 2025 年传媒弹性方向看好 AI 应用及并购重组,AI 应用聚焦新应用映射投资及部分较成熟应用数据跟踪,并购重组重点关注国企方向;稳健方向聚焦出版及游戏 [1] - 《哪吒 2》带动国潮 IP 热度提升,IP 变现产业链值得关注,潮流玩具、影视内容等方向有机会 [1] 根据相关目录分别进行总结 投资聚焦 行情概览 - 本周传媒板块下跌 8.06%,涨跌幅前三板块为钢铁(2.96%)、建材(1.98%)、房地产(1.86%),后三为计算机( - 8.01%)、传媒( - 8.06%)、通信( - 9.62%) [10] - 传媒板块本周涨幅前五为宝通科技(57.6%)、天舟文化(21.6%)等,跌幅前五为光线传媒( - 14.5%)、浙文互联( - 14.9%)等 [13] - 教育&人服板块本周涨幅前五为高途集团(31.5%)、同道猎聘(16.8%)等,跌幅前五为佳发教育( - 12.7%)、国新文化( - 12.8%)等 [14] - 重点港股&中概股上市公司一周走势:泡泡玛特( - 3.6%)、快手( - 13.4%)等 [14] 本周子板块观点 - 资源整合预期关注中视传媒、国新文化等 [2][18] - AI 关注奥飞娱乐、汤姆猫等 [2][18] - 游戏建议关注神州泰岳、恺英网络等 [2][18] - 国企关注慈文传媒、皖新传媒等 [2][18] - 教育关注学大教育、行动教育等 [2][18] - 港股关注腾讯控股、泡泡玛特等 [2][18] 重点事件回顾 AIGC + 游戏 - 2 月 27 日 OpenAI 发布 GPT - 4.5,计算效率比 GPT - 4 提高 10 倍以上,对人类意图理解更深刻,在协助写作和设计方面表现出色 [3][21] - 2 月 28 日 DeepSeek“开源周”收官,期间开源 Fire - Flyer 文件系统等多样化内容 [4][21] - 2 月 26 日阿里开源视频生成模型 Wan2.1,攻克静态图像文字生成,支持在视频中合理生成文字 [5][21] 子板块数据跟踪 游戏 - 近期热门重点游戏包括《问鼎三国 - 策略国战手游》、《剑灵 2》等 [23] - 部分游戏榜单排名有变化,如腾讯《英雄联盟》排名 15(↓5),《金铲铲之战》排名 5(↑3)等 [24] 院线 - 内地电影市场周总票房(2.24 - 2.28)约 4.31 亿元,票房排名前三为《哪吒之魔童闹海》(3.1 亿)、《唐探 1900》(0.42 亿)、《您的声音》(0.23 亿) [24][26] 影视视频 - 2025 年 2 月 24 日至 27 日全平台剧集收视播放量,《难哄》排名第一,全网热度 84.6;综艺《火星情报局第七季》排名第一,全网热度 72.4 [26][27][28]
DeepSeek披露,一天成本利润率为545%
华尔街见闻· 2025-03-01 11:17
成本利润率披露 - 公司首次披露成本利润率关键信息 假定GPU租赁成本为2美元/小时 日总成本为87072美元 若所有tokens按DeepSeek-R1定价计算 理论日收入达562027美元 成本利润率为545% [1][3] - 实际收入低于理论值 因V3定价更低且存在夜间折扣 收费服务仅占部分负载 [4] 资源利用与定价策略 - 最近24小时节点占用峰值278个 平均22675个 定价策略为014美元/百万输入tokens(缓存命中) 055美元/百万输入tokens(缓存未命中) 219美元/百万输出tokens [3] - 采用弹性资源调度 白天全节点部署推理 夜间释放节点用于训练/研究 优化目标为提升吞吐量与降低延迟 [4][5] - 公司强调定价原则为"不贴钱也不赚暴利" 在成本基础上保持适度利润 此前员工透露API服务利润率超50% [5] 行业争议与回应 - 潞晨科技创始人尤洋曾称DeepSeek API业务月亏4亿元 主要因测试速度与实际场景差距 机器利用率波动及不稳定性 [2][5] - 公司通过公开资源利用数据间接回应质疑 证明弹性伸缩可避免资源空置 [5] - 业内人士认为在线推理领域需持续吸引用户并保持技术领先才能盈利 商务付费能力与应用场景同样关键 [6] 开源周技术成果 - 公司结束为期5天的开源周 累计开源5个代码库 包括FlashMLA(Hopper GPU优化解码内核) DeepEP(MoE模型训练推理通信库) DeepGEMM(支持密集与MoE布局的即时编译库) Optimized Parallelism Strategies(大规模训练效率优化)及Fire-Flyer文件系统(3FS)与Smallpond数据处理框架 [7][8][9][10][11] - 开源技术被评价为从"运营驱动"转向"价值驱动" 推动智能未来创新 [12] 用户规模与行业影响 - DeepSeek App累计下载量超11亿次 周活跃用户峰值近9700万 [12] - 开源生态发展被视为中国技术创新的关键力量 公司实践展示开源硬件对技术自由的促进作用 [12]
DeepSeek宣布:活动正式收官
21世纪经济报道· 2025-02-28 08:46
开源周活动总结 - 国内AI明星企业深度求索(DeepSeek)在2月24日至28日举办了为期五天的"开源周"活动 [1][3] - 活动期间共发布了五个开源项目,涵盖计算、通信和存储等多个技术领域 [3] - 中信证券研报指出,此次开源活动有望进一步催化AI+主题,带动行业应用发展和算力需求增长 [7] 开源项目详情 - 2月24日:开源FlashMLA代码库,针对Hopper GPU优化的高效MLA解码内核,已投入生产 [4] - 2月25日:开放DeepEP通信库,支持MoE模型训练和推理的全对全通信,兼容FP8低精度运算 [4] - 2月26日:开源DeepGEMM库,专为FP8通用矩阵乘法设计,支持普通和MoE分组的GEMM [5] - 2月27日:一次性开源DualPipe工具、EPLB负载均衡器及性能分析数据集 [5] - 2月28日:开源3FS数据访问助推器 [6] API价格调整 - 2月25日恢复API充值功能,同时进行价格结构性调整 [8][9] - deepseek-chat(V3模型):输入tokens 2元/百万,输出tokens 8元/百万 [9] - deepseek-reasoner(R1模型):输入tokens 4元/百万,输出tokens 16元/百万 [9] - 2月26日推出错峰优惠策略 [10] - 每日00:30-08:30优惠时段 [10] - V3模型价格降至50%,R1模型降至25% [10]
与 00 后开源者聊 DeepSeek 开源周:一直开源最强模型,可能是不想赚钱,也可能是想推动更大变化丨开源对话#2
晚点LatePost· 2025-02-27 14:03
开源策略与趋势 - DeepSeek宣布"开源周"计划,连续5天开源5个代码库,包括训练与推理工具,比技术报告和模型权重更深度[5] - 开源正成为行业趋势,部分原闭源公司开始发布首批开源模型,OpenAI CEO称"不开源是站在历史错误一边"[5] - DeepSeek通过详细技术报告(如V3达50多页)建立行业声誉,V3作为基座模型涵盖预训练、微调等完整流程[13][15][17] 开源技术层次 - 大模型开源分为四个层次:技术报告、模型权重(HuggingFace发布)、推理框架(如vLLM)、训练框架(如字节Verl)[19][26] - vLLM推理框架GitHub星数近4万,有840多位贡献者,基于PagedAttention论文优化[20][25] - 训练框架开源较少,因涉及复杂代码规范,字节开源的Verl框架支持强化学习算法如PPO和分布式策略[26][27] 工程优化与效率 - DeepSeek创新聚焦效率提升:V3采用多令牌预测、FP8低精度训练、优化流水线并行减少闲置计算单元[40] - FlashMLA开源项目实现算子层优化,类似FlashAttention通过GPU指令重组提升矩阵运算效率[45][46][48] - 工程实现难度高,如在线训练需同时处理生成与模型更新,对底层框架能力要求极高[49][50][51] 商业考量与行业影响 - 开源策略差异源于商业模式:非盈利机构Ai2开源最强模型+数据集,商业公司可能保留核心模型[54][56] - 开源可能重构行业生态,成为技术标准,但未来AI能力极强时开源最强模型或引发滥用风险[55][59] - 公司转向开源需额外投入:代码规范(如阿里代码规约)、适配外部框架(如ESFT适配耗时一周多)[36][34][35] 社区与开发者价值 - GitHub社区活跃度可通过星数(vLLM近4万)、Issues数(数千)、PR数(数百)衡量[20][25] - 开源项目需持续维护,如DeepSeek计划整合5个库功能并修复潜在bug[52] - 开发者诉求多样,包括支持FP8精度、NPU芯片适配等,反映实际应用场景需求[52]