报告行业投资评级 未提及 报告的核心观点 - 看好本地国产推理算力爆发及向量数据库等新型基础软件扩圈,云服务厂商将迎来新增长势头,现阶段本地部署或为大型和特殊行业企业适用的AI调用方式 [1] - Deepseek开创全新大模型研发范式,实现对“算力军备竞赛”发展路径的系统性颠覆 [2] - 开源模型DeepSeek将重构产业生态,为国产AI产业发展创造机遇,增强国内企业自主研发算力芯片的信心 [3] 根据相关目录分别进行总结 Deepseek优势 - 以“单位算力效能提升10倍”为目标,通过算法优化降低模型训练与推理成本,实现与行业巨头媲美的模型性能 [1] - 训练成本低,训练671B的DeepSeek V3成本为557.6万美元(约4070万人民币),仅为Llama 3的7%,DeepSeek - R1用不到GPT 5%的成本获与OpenAI顶尖推理模型相当能力 [1] - 采用MIT协议全栈开源,吸引全球开发者共建生态 [1] Deepseek技术创新 - 采用MoE和MLA两大创新架构实现高效推理和低成本训练 [2] - 算法层面,动态稀疏化专家网络设计使模型推理仅需调用不足4%的神经网络参数 [2] - 工程层面,采用FP8低精度训练框架,能耗降幅达80%且保持模型收敛稳定性 [2] - DeepSeek R1引入强化学习驱动范式,摆脱对SFT依赖,冷启动策略仅需行业基准值1/5的标注数据量完成高效训练 [2] Deepseek对产业的影响 - 重构产业生态,引发链式反应,加速上层应用发展与下层系统统一 [3] - 促使各方加大“模型 - 芯片 - 系统”协同优化与垂直打通投入,削弱CUDA生态优势 [3] - 降低AI模型训练对高端进口芯片依赖,为国内企业提供可行技术路径,增强自主研发算力芯片信心 [3]
国君计算机|效率革命剑指“暴力计算法则”——Deepseek重塑AI时代大模型研发范式
国泰君安·2025-02-17 08:03