刚刚，OpenAI开源2个推理模型：笔记本/手机就能跑，性能接近o4-mini

开源模型发布 - 公司时隔6年再次开源大模型，推出gpt-oss-120b（1170亿参数）和gpt-oss-20b（210亿参数）两个推理模型，采用Apache 2.0许可证允许商用[1][3][4] - 模型名称直接标注为开源系列（Open Source Series），性能达到开源模型第一梯队，但在代码生成和复杂推理任务中仍略逊于闭源模型[4][5] - 大模型采用MoE架构，gpt-oss-120b激活参数51亿/总参数1170亿，gpt-oss-20b激活参数36亿/总参数210亿，分别支持单张80GB GPU和16GB内存消费级设备运行[6][30] 技术参数对比 - 在MMLU（通用学科测试）中，gpt-oss-120b得分90分，接近o4-mini的93分；gpt-oss-20b得分85.3分[7][50] - 竞赛数学AIME测试中，gpt-oss-120b在2024/2025年分别取得96.6/97.9分，超越o3-mini但略逊于o4-mini的98.7/99.5分[7] - 健康问答HealthBench和工具调用TauBench测试中，gpt-oss-120b表现超越o4-mini，gpt-oss-20b达到或超过o3-mini水平[41][42][47] 架构与训练 - 采用Transformer+MoE架构，使用分组多查询注意力（组大小8）和旋转位置嵌入（RoPE），支持128k上下文长度[29][31] - 训练数据聚焦STEM、编程和通用知识领域，使用o200k_harmony分词器（同步开源）[33] - 后训练流程包含监督微调和强化学习阶段，支持低/中/高三种推理强度调节，通过系统提示语即可设置[35][38][39] 应用演示 - 实测显示gpt-oss-120b在Macbook Pro（配2块H100）上可实现40-50 tokens/s生成速度，成功完成断网环境下的工具调用和游戏修改[13][17][18][20][22][24] - 模型展现优秀的思维链能力，能通过多次调用Python工具完成天气查询等任务，虽存在中间错误但最终输出正确[14][15][18] 开源战略意义 - 公司称此次开源是"开源权重模型的重要进步"，旨在降低AI门槛、推动研究创新，特别帮助资源受限组织获取先进AI工具[59][60][61] - 开源模型作为托管模型的补充，可促进AI开发民主化，实现更安全透明的AI生态[60][62] - 这是自GPT-2后首个开放权重的语言模型，包含数十亿美元研究成果[7][28]