HiFloat8 (HiF8)

搜索文档
究竟会花落谁家?DeepSeek最新大模型瞄准了下一代国产AI芯片
机器之心· 2025-08-22 04:01
DeepSeek V3.1 模型性能提升 - 采用全新混合推理架构,支持思考与非思考两种模式,在工具使用、编程、搜索等智能体任务上表现大幅提升 [1] - 在Aider多语言编程基准测试中得分超越Anthropic Claude 4 Opus,同时具备显著成本优势 [1] - SWE-bench Verified基准测试得分66.0,较前代V3-0324的45.4提升45.4% [2] - SWE-bench基准测试得分54.5,较前代V3-0324的29.3提升86.0% [2] - Terminal-Bench基准测试得分31.3,较前代V3-0324的13.3提升135.3% [2] - 通过思维链压缩训练,在任务表现持平情况下token消耗量减少20-50%,有效成本与GPT-5 mini相当 [2] UE8M0 FP8技术创新 - 采用UE8M0 FP8缩放浮点格式,参数量达685B,专为下一代国产芯片设计 [5][7] - UE8M0采用无符号设计,8bit全部用于指数位,覆盖极大正数范围,适合处理梯度、激活值等跨数量级数据 [8][9] - 兼容微缩放浮点格式,通过外部缩放因子补偿精度,实现低比特宽度存储和快速计算 [8][9] - FP8格式仅占1字节内存,较FP16节省50%存储空间,在百亿/千亿参数规模下节省显著 [10] - NVIDIA Hopper GPU的FP8 Tensor Core吞吐量达FP16的两倍 [10] 国产AI芯片生态布局 - UE8M0 FP8格式针对华为昇腾、寒武纪等国产AI芯片优化 [9][15] - 华为HiFloat8方案采用单一格式+锥形精度思路,兼顾精度和范围,覆盖正向反向传播 [9] - DeepSeek明确否认V3.1使用国产芯片训练,但UE8M0机制为国产推理芯片优化铺平道路 [13][14] - 未来国产开源大模型可能针对华为昇腾、寒武纪芯片实现专门优化并大规模应用 [15]