DeepEP

搜索文档
苹果或将发布AI日历功能;DeepSeek公开致谢腾讯丨AIGC日报
创业邦· 2025-05-11 01:06
DeepSeek与腾讯技术合作 - DeepSeek公开致谢腾讯技术团队对其开源通信框架DeepEP的优化 优化使性能在RoCE网络环境下提升高达100% 在InfiniBand网络环境下提升约30% [1] 苹果收购MaydayLabs - 苹果收购加拿大初创公司MaydayLabs 收购时间为2024年4月3日 核心资产涉及AI日历功能 适用于Mac、iOS和iPad 该应用已于2024年5月1日停用 [1] 英伟达修改版H20芯片 - 英伟达计划在7月为中国市场推出修改版H20芯片 主要面向云计算领域巨头公司 修改版芯片性能将显著降级 包括大幅降低内存容量 [1] 字节跳动开源Deep Research项目 - 字节跳动技术团队开源Deep Research项目DeerFlow 基于LangStack 功能包括深度研究、MCP集成、报告AI增强编辑以及播客生成 [1]
DeepSeek致谢腾讯技术团队:对DeepEP的优化,是一次“huge speedup”代码贡献
新浪科技· 2025-05-07 11:12
技术优化 - 腾讯技术团队对DeepSeek开源的DeepEP通信框架进行深度优化,在RoCE网络环境性能提升100%,IB网络环境提升30% [1] - 优化后的技术方案获得DeepSeek公开致谢,被称为"huge speedup"代码贡献 [1] - 腾讯星脉网络团队发现DeepEP两大关键瓶颈:双端口网卡带宽利用率不足和CPU控制面交互时延 [2] - 技术优化后,DeepEP在RoCE网络实现性能翻倍,IB网络通信效率提升30% [2] 技术突破 - DeepSeek开源的DeepEP通信框架通过突破性方法提升300%通信效率,减少对英伟达NCCL的依赖 [2] - 优化措施包括:替换IBRC为IBGDA、为每个通道使用独立QP实现并行数据传输 [1] - 优化后internode带宽达到58GB/s(RDMA),internade带宽达到51GB/s(RDMA) [1] 应用与影响 - 该技术已全面开源并应用于腾讯混元大模型等项目的训练推理 [2] - 在腾讯星脉与H20服务器构建的高性能环境中展现出出色通用性 [2] - 技术优化使企业AI大模型训练获得更高效解决方案 [1]
中金 | AI智道(7):DeepSeek Infra开源周总结,及算力测算一览
中金点睛· 2025-03-16 23:55
文章核心观点 - 2025年2月24 - 28日DeepSeek进行Infra开源周,其Infra工程优化能力国内领先,通过五大Infra核心技术构建大模型 - 算力全栈协同体系,实现大模型开发成本大幅压缩;成本及算力测算显示其毛利率水平国内领先;Infra优化能力推动大模型平权,对推理算力需求有积极影响,AI应用商业化更取决于模型能力和工程优化 [2][3] DeepSeek开源周:Infra层优化能力行业领先 全栈协同体系 - DeepSeek开源周深度适配GPU特性,通过五大Infra核心技术构建大模型 - 算力全栈协同体系,以“单卡算力提升 - 核心计算加速 - 通信延迟降低 - 多卡协作优化 - 数据流高速供给”为脉络形成优化闭环,提升千亿参数模型训练、推理效率,压缩开发成本 [2][6] 每日成果 - **Day1**:发布为英伟达Hopper GPU设计的MLA解码内核FlashMLA,实现MoE模型推理加速,针对变长序列处理等场景优化,核心创新含分页KV缓存、分块调度与内存优化、原生稀疏注意力,实测在H800 SXM5平台有顶尖性能表现 [8] - **Day2**:发布DeepEP,为MoE模型和专家并行设计的专用通信库,支持FP8低精度通信,有高效优化的all - to - all通信、支持NVLink和RDMA技术等特点,实现训练和推理高吞吐、低延迟 [9] - **Day3**:发布DeepGEMM,针对FP8通用矩阵乘法打造,支持密集GEMM和MoE GEMM,采用CUDA核心两级累加机制,核心优化包括线程束优化、利用Hopper TMA特点、特殊优化等,在H800上最高可实现2.7倍加速 [10] - **Day4**:开源DualPipe、EPLB和Profile - data。DualPipe是双向流水线并行算法,通过重叠计算与通信阶段提升训练性能;EPLB是专家并行负载均衡器,用冗余专家策略和组限制专家路由解决负载不均衡问题;Profile - data展示通信计算重叠策略和低级实现细节 [13][14][16] - **Day5**:开源3FS和Smallpond。3FS是高性能分布式文件系统,利用SSD和RDMA网络,在性能、可用性和多样化工作负载方面有优势;Smallpond是基于DuckDB和3FS的轻量级数据处理框架,具备高性能、易操作、可扩展特点 [21][22] DeepSeek成本及算力测算:毛利率水平领先 成本与毛利率测算 - DeepSeek 3月1日公开模型推理效率和成本,过去24小时DeepSeek V3和R1推理服务峰值占用278个节点,平均占用226.75个节点,处理608B输入Token和168B输出Token,总体GPU hours成本8.7万美元;以模型API定价测算收入、GPU hours租赁成本为核心成本项,综合毛利率在71 - 84.5%,处于行业领先水平 [24] 利润率对比 - 理想情况计算的DeepSeek毛利率较高,但实际因部分Token不收费,整体毛利率会降低;海外OpenAI和Anthropic API服务按仅扣GPU Hours口径计算毛利率也领先;其他云厂商为保证稳定性提供冗余算力,集群负载率难达DeepSeek水平,底层优化不足,会损失部分毛利率 [25] 对产业影响 - 推理算力方面,AI infra进步提升算力利用效率,推动行业繁荣,多模态、Manus等Agent应用会激发更大推理算力需求;AI应用方面,模型推理成本降低,商业化更取决于模型能力迭代和合适场景打磨,2C看好互联网大厂产品化进展,2B关注企业服务厂商客户场景磨合,期待2025年出现更多“爆款”AI应用 [26]
DeepSeek再开源,关注AI应用变化
华泰证券· 2025-03-03 13:25
行业投资评级 - 计算机行业评级为增持(维持)[7] 核心观点 - DeepSeek在6天内连续开源Infra层核心代码 涉及MLA 通信-计算 矩阵乘法运算 专家负载 文件存取等模块优化 旨在提高模型和硬件效率[1] - 开源优化使理论成本利润率达545% 考虑V3定价和夜间折扣等因素 付费token占比50%时测算成本利润率有望达108%[1] - 模型层持续优化有望降低应用层成本并提升应用表现 建议关注拥有用户 数据和场景优势的2B和2C应用公司[1] - 海外厂商以大算力探求边界提升 如xAI将GPU集群从10万卡扩至20万卡训练Grok-3 OpenAI发布GPT-4 5 国内则更注重软硬件效率优化[4] - 模型能力未来或成为基础资源 应用公司优势显著[5] 开源内容总结 - Day 1开源FlashMLA 用于减少训推成本 针对可变长度序列优化 H800上内存限制3000 GB/s 计算限制580 TFLOPS 并适配摩尔线程 海光 天数GPU[12] - Day 2开源DeepEP 提高MoE模型通信速度 支持节点内NVLink和节点间RDMA通信 支持FP8低精度运算[12] - Day 3开源DeepGEMM 优化FP8矩阵乘法运算 在大多数矩阵大小中优于专家调优内核[12] - Day 4开源DualPipe 提高通信和计算效率 实现前向和后向计算通信阶段完全重叠 同时开源EPLB平衡专家负载提升算力效率 以及Profiling Data揭示框架配置方法[12] - Day 5开源3FS 揭示高效文件存取方法 利用SSD和RDMA网络提供共享存储[12] - Day 6开源DeepSeek V3/R1推理系统概述 直接揭示推理效率细节 每个H800节点每秒处理73 7k输入或14 8k输出token[12] 性能与成本数据 - DeepSeek官方数据显示 输入token 608B 其中342B token(56 3%)命中缓存 输出token 168B[17] - 使用278个峰值H800节点(每节点8卡) 平均占用226 75个节点 H800租赁成本每小时2美元 日总成本87,072美元[17] - 所有请求按R1定价计费时日总收入562,027美元 成本利润率545%[17] - 考虑V3定价半价 仅API收费 夜间折扣等因素 华泰测算付费token占比50%时收入181,115美元 成本利润率108%[22] 国内外模型对比 - DeepSeek-R1在GPQA(science)达71 5% AIME 24(math)达79 8% MMLU-Pro达75 9%[23] - GPT-4 5在GPQA(science)达71 4% MMLU-Pro达85 1% MMMU(multimodal)达74 4%[23] - o3-mini(high)在GPQA(science)达79 7% AIME 24(math)达87 3%[23] 产业链标的 - 推荐公司:金山办公(目标价351 05元) 同花顺(目标价425 23元) 用友网络(目标价16 12元)[10] - 2C应用包括三六零 合合信息 2B应用包括汉得信息 新致软件 能科科技 数据中台包括星环科技 普元信息[5] 用户数据 - DeepSeek移动端日活最高达4,179万人(2/6) PC端日活最高达1,600万人(2/5)[20] - 移动端日活占ChatGPT比例最高76 26%(2/10) PC端日活占ChatGPT比例最高23 72%(1/30)[20]
爱建证券电子行业周报:DeepSeek开源周发布五大技术
爱建证券· 2025-03-03 10:10
行业投资评级 - 电子行业评级为"强于大市" [1] 核心观点 - DeepSeek开源周发布五大技术,包括FlashMLA、DeepEP、DeepGEMM、Optimized Parallelism Strategies和3FS,显著提升AI模型训练和推理效率 [6][9][11][16][19][23][28] - OpenAI发布GPT-4.5,计算效率较GPT-4提升10倍,但API成本高达75美元/百万tokens输入、150美元/百万tokens输出 [34][35] - 三星与长江存储签署3D NAND混合键合专利许可协议,计划2025年下半年量产420-430层V10 NAND [40] - 英伟达2025财年Q4营收393亿美元,同比增长78%,数据中心业务收入356亿美元,同比增长93% [30][32] - 阿里巴巴宣布未来三年投入3800亿元建设云和AI硬件基础设施 [36] - 台积电先进封装订单激增,英伟达包下七成CoWoS-L产能,预计全年出货量突破200万颗 [37] 目录分组总结 1 DeepSeek开源周发布五大技术 - **FlashMLA**:为Hopper架构GPU设计的高效MLA解码内核,在H800平台上实现3000GB/s数据吞吐与580 TFLOPS算力,性能较FlashAttention-2提升2倍 [6][8] - **DeepEP**:优化MoE模型训练和推理,节点内通信带宽达153GB/s(NVLink),节点间稳定在43-46GB/s(RDMA) [11][12] - **DeepGEMM**:FP8矩阵运算库,计算性能达1358 TFLOPS,加速比最高2.7倍 [16][17] - **Optimized Parallelism Strategies**:包含DualPipe和EPLB技术,优化并行计算和负载均衡 [19][21] - **3FS**:分布式文件系统,聚合读取吞吐量6.6 TiB/s,GraySort基准测试吞吐量3.66 TiB/分钟 [23][26] 2 全球产业动态 - **英伟达财报**:2025财年收入1305亿美元,同比增长114%,数据中心业务收入1152亿美元,同比增长142% [30][32] - **OpenAI GPT-4.5**:SimpleQA基准测试准确率62.5%,幻觉率37.1%,API成本为GPT-4o的30倍 [34][35] - **三星与长江存储**:合作开发420-430层V10 NAND,采用W2W混合键合技术 [40] - **阿里巴巴**:未来三年投入3800亿元建设云和AI基础设施 [36] - **台积电**:英伟达包下七成CoWoS-L产能,预计全年出货量200万颗 [37] - **SiC AR眼镜**:天科合达与慕德微纳合作,利用碳化硅衬底实现80°全彩视场角 [41][42] 3 本周市场回顾 - **SW一级行业**:钢铁(+3.2%)、房地产(+2.2%)、食品饮料(+1.8%)领涨,电子行业下跌4.9%,排名28/31 [44][47] - **SW三级行业**:半导体材料(+0.4%)、数字芯片设计(-2.1%)、半导体设备(-3.4%)表现较好 [47][48] - **海外市场**:费城半导体指数下跌11.7%,恒生指数上涨1.6% [51][53]
DeepSeek开源周活动收官,将加快大模型在各行业的应用落地
平安证券· 2025-03-03 09:15
行业投资评级 - 计算机行业评级为强于大市(维持)[1] 核心观点 - DeepSeek开源周活动通过发布五个开源软件库项目(涵盖计算、通信到存储),推动全球开发者复刻其低成本、高性能大模型技术,加速大模型在各行业应用落地[2][5][6] - 全球大模型竞争持续激烈(Grok-3、Claude 3.7 Sonnet、GPT-4.5陆续发布),推动AI能力上限提升,并为AI算力需求增长提供支撑[2][8][11] - 英伟达FY25Q4业绩表现强劲,营收393亿美元(环比增12%、同比增78%),净利润220.91亿美元(同比增80%),数据中心业务为主要增长引擎(收入356亿美元,环比增16%、同比增93%)[13][14] - Blackwell架构需求强劲(第四季度销售额110亿美元),推理侧应用显著提升效率(如某公司推理吞吐量提升3倍、成本降66%)[15] 行业要闻及简评 **DeepSeek开源技术细节** - 开源项目包括:Flash MLA(优化Hopper GPU解码)、DeepEP(MoE训练推理通信库)、DeepGEMM(FP8矩阵计算库)、DualPipe与EPLB(并行负载均衡工具)、3FS(数据访问助推器)[5] - 披露理论成本与利润率:峰值占用278节点(每节点8个H800 GPU),日均成本87,072美元(按2美元/小时租赁),理论日均收入562,027美元,成本利润率545%[6] **全球大模型竞争动态** - GPT-4.5采用10倍算力训练,定价较高(输入75美元/百万token、输出150美元/百万token),较Claude 3.7(输入3美元/百万token)和DeepSeek-V3(错峰优惠输入0.25元/百万token)更昂贵[9][10] - Claude 3.7 Sonnet支持标准与扩展思维双模式,提升数学、物理及编程任务能力[11] **英伟达业绩与技术进展** - FY25全年营收1,305亿美元(同比增114%),Q4毛利率73%(略低于去年同期76%)[14] - Blackwell集群规模超10万块GPU,推理领域需求强劲;Blackwell Ultra计划2025年下半年上市[15] 重点公司业绩摘要 **增长显著企业** - 同花顺:营收41.87亿元(同比增17.47%),归母净利润18.23亿元(同比增30%)[18] - 达梦数据:营收10.44亿元(同比增31.49%),归母净利润3.62亿元(同比增22.26%)[18] - 道通科技:营收39.32亿元(同比增20.95%),归母净利润6.40亿元(同比增257.34%)[18] - 金山办公:营收51.21亿元(同比增12.40%),归母净利润16.45亿元(同比增24.84%)[18] - 麒麟信安:营收2.86亿元(同比增75.24%),归母净利润786.55万元(扭亏为盈)[20] **业绩承压企业** - 中科曙光:营收131.66亿元(同比降8.27%),归母净利润19.14亿元(同比增4.26%)[18] - 奇安信:营收43.55亿元(同比降32.41%),归母净利润-13.63亿元[20] - 航天宏图:营收15.92亿元(同比降12.49%),归母净利润-14.32亿元(同比降282.71%)[20] 市场表现 - 计算机行业指数上周下跌7.82%,跑输沪深300指数(跌2.22%)5.60个百分点[21] - 年初至上周累计上涨13.79%,跑赢沪深300指数(跌1.14%)14.93个百分点[21] - 行业市盈率51.8倍,周内360只成分股中47只上涨、1只平盘、312只下跌[24] - 涨幅前列:大位科技(涨55.67%)、天玑科技(涨37.04%)、中电兴发(涨36.82%)[25] 投资建议 推荐关注五大板块: 1. **信创板块**:推荐海光信息、龙芯中科、中科曙光等7家,建议关注中国软件等5家[28] 2. **华为产业链**:推荐神州数码,建议关注拓维信息等5家[28] 3. **AI板块**:强烈推荐中科创达等3家,推荐工业富联等6家,建议关注寒武纪等4家[28] 4. **低空经济**:推荐道通科技,建议关注万丰奥威等11家[28] 5. **金融IT**:强烈推荐恒生电子,推荐同花顺等3家,建议关注新国都等3家[28]
DeEPSeek:EP降本,关注应用与算力
华泰证券· 2025-03-03 02:35
行业投资评级 - 科技行业评级为增持(维持)[6] - 计算机行业评级为增持(维持)[6] 核心观点 - DeepSeek通过大模型跨节点专家并行(EP)实现低成本推理,日均成本为$87,072,显著提升有效算力[1] - 推理成本大幅降低,平均每百万Token处理成本为$0.11,理想状态下15%付费率即可实现盈亏平衡[2] - 技术优化包括大规模跨节点专家并行、计算/通信重叠及负载平衡,实现更高吞吐量和更低延迟[3] - 与海外模型相比,DeepSeek具备显著性价比优势(如R1每百万Token输入定价$0.14 vs OpenAI o3-mini $0.55),反映国内外算力供应差异[4] - DeepEP开源有望推动LLM商业化应用加速,带动推理需求释放,利好IaaS服务商和AI应用渗透[5] - 国产算力硬件适配DeepEP体系后,国产AI算力板块或迎来成长机遇[5] 核心数据与性能指标 - 峰值占用278个节点,平均占用226.75个节点,GPU租赁成本为$2/小时[2] - 24小时内处理Token总量776B(输入608B+输出168B)[2] - 若按R1定价计算,单日理论收入$562,027,成本利润率545%[2] 受益方向与标的 - 算力产业推荐浪潮信息(目标价61.41元,买入评级),其他相关公司包括寒武纪、海光信息、金山云等[5][9][14] - 云厂商受益于推理需求带动的IaaS稼动率提升[5] - AI应用加速渗透受益于R1模型低成本部署能力[5] 技术实现细节 - 采用预填充-解码分解架构,实现多专家并行计算[3] - GPU的SM划分为计算与通信两部分,减少延迟等待时间[3] - 通过三重负载平衡(预填充、解码、专家并行)优化GPU计算与通信分配[3]
【兴证计算机】DeepSeek跟踪:AI平权领军,加力开源及降价
兴业计算机团队· 2025-03-02 11:41
本周观点聚焦 - 坚定中长期信心,在调整中加仓核心龙头,建议围绕政策及技术两大维度,积极加仓人工智能及国产化赛道 [2] - 板块出现调整受前期上涨较快及业绩快报披露等因素影响,即将进入重要政策窗口期,2025Q1业绩改善值得期待 [2] AI产业动态 - 全球AI产业加速共振,建议持续超配AI赛道,国内DeepSeek开源包括DeepEP、DeepGEMM等解决方案,覆盖底层硬件优化到上层应用多环节 [2] - DeepSeek实施"错峰定价"策略,大幅下调夜间空闲时段API调用价格,有望加速AI应用发展 [2] - 海外OpenAI发布ChatGPT 4.5,人性化交互实现明显提升,国产大模型如豆包、DeepSeek突破推动产业趋势发酵 [2] DeepSeek业务进展 - DeepSeek作为AI平权领军企业,加力开源及降价策略,业务进展显著 [3][4]
【兴证计算机】DeepSeek跟踪:AI平权领军,加力开源及降价
兴业计算机团队· 2025-03-02 11:41
本周观点聚焦 - 坚定中长期信心,在调整中加仓核心龙头,建议围绕政策及技术两大维度,积极加仓人工智能及国产化赛道 [1] - 板块出现调整受前期上涨较快及业绩快报披露等因素影响,但即将进入重要政策窗口期,2025Q1业绩改善值得期待 [1] AI产业动态 - 全球AI产业加速共振,建议持续超配AI赛道,国内DeepSeek开源包括DeepEP、DeepGEMM等解决方案,覆盖从底层硬件优化到上层应用多环节 [1] - DeepSeek实施"错峰定价"策略,大幅下调夜间空闲时段的API调用价格,有望加速AI应用发展 [1] - 海外OpenAI发布ChatGPT 4.5,在人性化交互方面实现明显提升 [1] - 国产大模型如豆包、DeepSeek取得突破,推动全球AI产业趋势持续发酵 [1] DeepSeek业务进展 - DeepSeek作为AI平权领军企业,加力开源及降价策略,业务进展显著 [2][4]
传媒行业周报:GPT-4.5发布,DeepSeek“开源周”收官
国盛证券· 2025-03-02 02:55
报告行业投资评级 - 增持(维持) [6] 报告的核心观点 - 本周(2.24 - 2.28)中信一级传媒板块下跌 8.06%,在市场影响下有所回调 [1][10] - 2025 年传媒弹性方向看好 AI 应用及并购重组,AI 应用聚焦新应用映射投资及部分较成熟应用数据跟踪,并购重组重点关注国企方向;稳健方向聚焦出版及游戏 [1] - 《哪吒 2》带动国潮 IP 热度提升,IP 变现产业链值得关注,潮流玩具、影视内容等方向有机会 [1] 根据相关目录分别进行总结 投资聚焦 行情概览 - 本周传媒板块下跌 8.06%,涨跌幅前三板块为钢铁(2.96%)、建材(1.98%)、房地产(1.86%),后三为计算机( - 8.01%)、传媒( - 8.06%)、通信( - 9.62%) [10] - 传媒板块本周涨幅前五为宝通科技(57.6%)、天舟文化(21.6%)等,跌幅前五为光线传媒( - 14.5%)、浙文互联( - 14.9%)等 [13] - 教育&人服板块本周涨幅前五为高途集团(31.5%)、同道猎聘(16.8%)等,跌幅前五为佳发教育( - 12.7%)、国新文化( - 12.8%)等 [14] - 重点港股&中概股上市公司一周走势:泡泡玛特( - 3.6%)、快手( - 13.4%)等 [14] 本周子板块观点 - 资源整合预期关注中视传媒、国新文化等 [2][18] - AI 关注奥飞娱乐、汤姆猫等 [2][18] - 游戏建议关注神州泰岳、恺英网络等 [2][18] - 国企关注慈文传媒、皖新传媒等 [2][18] - 教育关注学大教育、行动教育等 [2][18] - 港股关注腾讯控股、泡泡玛特等 [2][18] 重点事件回顾 AIGC + 游戏 - 2 月 27 日 OpenAI 发布 GPT - 4.5,计算效率比 GPT - 4 提高 10 倍以上,对人类意图理解更深刻,在协助写作和设计方面表现出色 [3][21] - 2 月 28 日 DeepSeek“开源周”收官,期间开源 Fire - Flyer 文件系统等多样化内容 [4][21] - 2 月 26 日阿里开源视频生成模型 Wan2.1,攻克静态图像文字生成,支持在视频中合理生成文字 [5][21] 子板块数据跟踪 游戏 - 近期热门重点游戏包括《问鼎三国 - 策略国战手游》、《剑灵 2》等 [23] - 部分游戏榜单排名有变化,如腾讯《英雄联盟》排名 15(↓5),《金铲铲之战》排名 5(↑3)等 [24] 院线 - 内地电影市场周总票房(2.24 - 2.28)约 4.31 亿元,票房排名前三为《哪吒之魔童闹海》(3.1 亿)、《唐探 1900》(0.42 亿)、《您的声音》(0.23 亿) [24][26] 影视视频 - 2025 年 2 月 24 日至 27 日全平台剧集收视播放量,《难哄》排名第一,全网热度 84.6;综艺《火星情报局第七季》排名第一,全网热度 72.4 [26][27][28]