
行业投资评级 - 计算机行业评级为增持(维持)[7] 核心观点 - DeepSeek在6天内连续开源Infra层核心代码 涉及MLA 通信-计算 矩阵乘法运算 专家负载 文件存取等模块优化 旨在提高模型和硬件效率[1] - 开源优化使理论成本利润率达545% 考虑V3定价和夜间折扣等因素 付费token占比50%时测算成本利润率有望达108%[1] - 模型层持续优化有望降低应用层成本并提升应用表现 建议关注拥有用户 数据和场景优势的2B和2C应用公司[1] - 海外厂商以大算力探求边界提升 如xAI将GPU集群从10万卡扩至20万卡训练Grok-3 OpenAI发布GPT-4 5 国内则更注重软硬件效率优化[4] - 模型能力未来或成为基础资源 应用公司优势显著[5] 开源内容总结 - Day 1开源FlashMLA 用于减少训推成本 针对可变长度序列优化 H800上内存限制3000 GB/s 计算限制580 TFLOPS 并适配摩尔线程 海光 天数GPU[12] - Day 2开源DeepEP 提高MoE模型通信速度 支持节点内NVLink和节点间RDMA通信 支持FP8低精度运算[12] - Day 3开源DeepGEMM 优化FP8矩阵乘法运算 在大多数矩阵大小中优于专家调优内核[12] - Day 4开源DualPipe 提高通信和计算效率 实现前向和后向计算通信阶段完全重叠 同时开源EPLB平衡专家负载提升算力效率 以及Profiling Data揭示框架配置方法[12] - Day 5开源3FS 揭示高效文件存取方法 利用SSD和RDMA网络提供共享存储[12] - Day 6开源DeepSeek V3/R1推理系统概述 直接揭示推理效率细节 每个H800节点每秒处理73 7k输入或14 8k输出token[12] 性能与成本数据 - DeepSeek官方数据显示 输入token 608B 其中342B token(56 3%)命中缓存 输出token 168B[17] - 使用278个峰值H800节点(每节点8卡) 平均占用226 75个节点 H800租赁成本每小时2美元 日总成本87,072美元[17] - 所有请求按R1定价计费时日总收入562,027美元 成本利润率545%[17] - 考虑V3定价半价 仅API收费 夜间折扣等因素 华泰测算付费token占比50%时收入181,115美元 成本利润率108%[22] 国内外模型对比 - DeepSeek-R1在GPQA(science)达71 5% AIME 24(math)达79 8% MMLU-Pro达75 9%[23] - GPT-4 5在GPQA(science)达71 4% MMLU-Pro达85 1% MMMU(multimodal)达74 4%[23] - o3-mini(high)在GPQA(science)达79 7% AIME 24(math)达87 3%[23] 产业链标的 - 推荐公司:金山办公(目标价351 05元) 同花顺(目标价425 23元) 用友网络(目标价16 12元)[10] - 2C应用包括三六零 合合信息 2B应用包括汉得信息 新致软件 能科科技 数据中台包括星环科技 普元信息[5] 用户数据 - DeepSeek移动端日活最高达4,179万人(2/6) PC端日活最高达1,600万人(2/5)[20] - 移动端日活占ChatGPT比例最高76 26%(2/10) PC端日活占ChatGPT比例最高23 72%(1/30)[20]