Workflow
刚刚,OpenAI开源2个推理模型:笔记本/手机就能跑,性能接近o4-mini
量子位·2025-08-05 21:09

开源模型发布 - 公司时隔6年再次开源大模型,推出gpt-oss-120b(1170亿参数)和gpt-oss-20b(210亿参数)两个推理模型,采用Apache 2.0许可证允许商用[1][3][4] - 模型名称直接标注为开源系列(Open Source Series),性能达到开源模型第一梯队,但在代码生成和复杂推理任务中仍略逊于闭源模型[4][5] - 大模型采用MoE架构,gpt-oss-120b激活参数51亿/总参数1170亿,gpt-oss-20b激活参数36亿/总参数210亿,分别支持单张80GB GPU和16GB内存消费级设备运行[6][30] 技术参数对比 - 在MMLU(通用学科测试)中,gpt-oss-120b得分90分,接近o4-mini的93分;gpt-oss-20b得分85.3分[7][50] - 竞赛数学AIME测试中,gpt-oss-120b在2024/2025年分别取得96.6/97.9分,超越o3-mini但略逊于o4-mini的98.7/99.5分[7] - 健康问答HealthBench和工具调用TauBench测试中,gpt-oss-120b表现超越o4-mini,gpt-oss-20b达到或超过o3-mini水平[41][42][47] 架构与训练 - 采用Transformer+MoE架构,使用分组多查询注意力(组大小8)和旋转位置嵌入(RoPE),支持128k上下文长度[29][31] - 训练数据聚焦STEM、编程和通用知识领域,使用o200k_harmony分词器(同步开源)[33] - 后训练流程包含监督微调和强化学习阶段,支持低/中/高三种推理强度调节,通过系统提示语即可设置[35][38][39] 应用演示 - 实测显示gpt-oss-120b在Macbook Pro(配2块H100)上可实现40-50 tokens/s生成速度,成功完成断网环境下的工具调用和游戏修改[13][17][18][20][22][24] - 模型展现优秀的思维链能力,能通过多次调用Python工具完成天气查询等任务,虽存在中间错误但最终输出正确[14][15][18] 开源战略意义 - 公司称此次开源是"开源权重模型的重要进步",旨在降低AI门槛、推动研究创新,特别帮助资源受限组织获取先进AI工具[59][60][61] - 开源模型作为托管模型的补充,可促进AI开发民主化,实现更安全透明的AI生态[60][62] - 这是自GPT-2后首个开放权重的语言模型,包含数十亿美元研究成果[7][28]