Workflow
大模型技术路线
icon
搜索文档
欢迎OpenAI重返开源大模型赛道,谈一谈我关注的一些要点
36氪· 2025-08-06 07:55
文章核心观点 - OpenAI于2025年8月5日发布两款开源大模型GPT-OSS 120B和GPT-OSS-20B,这是公司自2019年11月以来首次发布开源模型,标志着其重返开源赛道[1] - 公司此次开源主要是为了满足企业客户对数据本地化部署、定制化微调和成本控制的需求,以争夺被竞争对手占据的市场[3][4] - 本次开源在技术层面影响有限,因其未披露最新技术、完整训练细节和核心语料库,属于“开放权重”而非完全开源,但证实了外界对其技术路线的猜测大部分正确[5][6][8] 行业竞争格局 - 在OpenAI开源前,全球主流AI开发商中仅OpenAI和Anthropic未发布新版开源模型,而谷歌、Meta、Mistral、阿里巴巴等均已有开源产品[2] - 2025年成为“开源之年”,百度、OpenAI、Meta、阿里巴巴等纷纷发布或加速开源模型,仅Anthropic和字节跳动未提供开源版本[4][5] - 开源策略有助于模型快速普及和生态构建,如DeepSeek因开源迅速获得政企客户,LLaMA在欧美深受大企业欢迎[4] 开源模型的商业动因 - 开源模型支持本地化部署,客户可将数据存储在本地硬件,保障国家或商业机密安全[3] - 客户可基于行业需求对开源模型进行微调,尤其适合医疗、金融等敏感或复杂场景[3] - 本地运行开源模型可能比购买闭源模型使用权更经济,例如GPT-OSS-20B可运行于笔记本电脑[3] 技术细节与性能 - GPT-OSS 120B和20B的参数规模分别为1200亿和200亿,训练数据截止于2024年6月,性能与GPT-4o3相当[6] - 模型采用混合专家架构,120B版本每层有128个专家,20B版本每层有32个专家,每次激活4个专家[6] - 思维链架构在后训练阶段实现,并采用CoT RL技术,但未压制“大模型幻觉”,导致深度推理模式幻觉率较高[6][7] - 训练算力基于英伟达H100 GPU,120B版本消耗210万H100小时,若训练45天需1944张H100,未使用最新Blackwell架构[9][10] 开源内容的局限性 - OpenAI未公布训练用的脚手架模型、Reward模型、预训练语料库及独家工具,因此属于“开放权重”而非完全开源[8] - 技术白皮书仅确认了外界已有猜测,未透露核心独门技术,对行业技术进步的直接影响有限[5][7] - 公司更先进的模型如GPT-4(参数1.37万亿)仍闭源,算力资源可能优先用于GPT-4.5/GPT-5训练[10]