推理成本骤降75%。gpt-oss用新数据类型实现4倍推理速度，80GB显卡能跑1200亿参数大模型

技术突破 - OpenAI在最新开源模型gpt-oss中采用MXFP4数据类型，使推理成本降低75% [1] - MXFP4将内存占用降至同规模BF16模型的1/4，同时生成token速度提升4倍 [1] - 该技术使1200亿参数大模型可运行在80GB显存显卡，16GB显存显卡可运行200亿参数版本 [1] 性能对比 - 120b模型总参数116.83B，检查点大小60.8GiB；20b模型总参数20.91B，检查点大小12.8GiB [2] - MXFP4使模型运行硬件资源需求仅为之前的1/4 [2] - 在gpt-oss中约90%权重应用了MXFP4量化 [3] 技术原理 - 模型运行成本主要由权重存储和内存带宽组成 [5][6] - MXFP4每个权重仅0.5字节，是FP32存储大小的1/8 [9] - 数据压缩降低存储空间并提升数据读写速度 [10] - MXFP4通过微缩放技术维持数值间关系精度，每组32个高精度数值共享8位缩放因子 [18][20] 硬件影响 - 浮点精度每减半，芯片浮点吞吐量可翻倍 [21] - Nvidia B200SXM模块BF16运算性能2.2 petaFLOPS，FP4可达9 petaFLOPS [21] - 运行MXFP4不要求硬件原生支持FP4，如H100虽不支持但仍可运行 [22] 行业应用 - 已有研究表明16位降至8位精度在大语言模型中几乎无质量损失 [25] - DeepSeek等公司已直接使用FP8进行模型训练 [25] - OpenAI在gpt-oss全面采用MXFP4，具有行业示范效应 [26]