Workflow
NVIDIA Hopper GPU
icon
搜索文档
中金 | AI进化论(2):模型+工程创新持续唤醒算力,DeepSeek撬动推理需求蓝海
中金点睛· 2025-02-27 23:34
模型创新 - 采用多重潜在注意力机制(MLA)优化KV缓存,将内存占用较大的KV矩阵投射到隐空间,存储低秩变量C而非完整KV矩阵,KV Cache存储元素数量仅相当于2.25组GQA,但性能优于MHA [4][8][9] - MLA在16B和250B参数的MoE模型中表现突出:BBH(EM)分别提升1.1和4.1个百分点,MMLU(Acc.)提升1.3和1.5个百分点,CMMLU(Acc.)提升1.1和1.8个百分点 [12] - 引入原生稀疏注意力(NSA)技术,通过Token压缩、Token选择、滑动窗口三条路径压缩序列长度,在64k上下文长度下实现11.6倍解码加速和9.0倍训练前向加速 [13][16][17] - NSA与MLA互补:MLA侧重全局视角建模,NSA侧重局部细节处理,两者计算复杂度分别为O(nm+m²)和O(kn),内存占用分别为中等和极低 [19] 硬件工程优化 - 采用Prefill/Decode分离策略(PD分离),Prefill阶段配置4节点32GPU(TP4+SP+DP8+EP32),Decode阶段配置40节点320GPU(TP4+SP+DP80+EP320),专家并行度达320以最小化单步延迟 [20][24] - 动态冗余策略优化负载:Prefill阶段单GPU承载9个专家,Decode阶段单GPU承载1个专家,64个GPU专用于冗余专家分配 [21] - 显存需求测算显示,25用户并发时FP8精度推理需77GB显存,671B参数模型需分布式推理 [23][24] 硬件需求启示 - 推理部署向集群化发展,测算微信接入DS模型需40万张NVIDIA Hopper GPU,单token成本降至0.1美元/万token [31][32] - 以太网在Scale-up网络中渗透率提升:51.2Tbps产品商用,102.4Tbps产品预计2025年推出,转发延迟低于400ns;在Scale-out网络中RoCE凭借性价比与InfiniBand竞争 [26][27][28] - 国产算力全链适配:24家AI芯片企业、6家GPU企业、86家服务器厂商完成DS适配,硅基流动与昇腾云合作实现推理性能比肩高端GPU [33][35]