梁文锋等发表DeepSeek V3回顾性论文

DeepSeek-V3模型架构分析 - 论文深入分析了DeepSeek-V3/R1模型架构及其人工智能基础架构 [1] - 重点介绍了提高内存效率的多头潜意识(MLA)创新 [1] - 探讨了优化计算与通信权衡的专家混合(MoE)架构 [1] 硬件优化技术 - 采用FP8混合精度训练以释放硬件全部潜力 [1] - 通过多平面网络拓扑结构最大限度降低集群级网络开销 [1] 行业技术发展 - 论文聚焦人工智能架构硬件的扩展挑战与思考 [1] - 展示了公司在AI基础架构领域的关键技术创新 [1]