思维链（CoT） - 财报，业绩电话会，研报，新闻

思维链（CoT）

搜索文档

虎嗅· 2025-08-06 07:03

开源大模型发布 - OpenAI于2025年8月5日发布两款开源大模型GPT-OSS 120B和GPT-OSS-20B 用户可通过Hugging Face平台下载并修改定制或商业应用主流云平台包括亚马逊AWS和微软Azure已提供基于这两款模型的服务这是OpenAI自2019年11月以来首次发布开源大模型[1] 历史背景与行业对比 - OpenAI名称原意为"开放"和"开源" 但自2019年初起偏离开源轨道 2019年2月以安全问题为由拒绝公布GPT-2全部参数权重仅公布7.74亿参数部分模型同年11月才公布全部15亿参数后续GPT-3、GPT-3.5及GPT-4系列均未公布参数权重或技术白皮书[1] - 截至发布时 OpenAI与Anthropic是全球AI大模型基础研发第一集团中仅有的两家未发布新版开源模型的开发者[2] - 竞争对手普遍采用开源策略谷歌2024年起维持开源Gemma系列与闭源Gemini系列并行 Meta的LLaMA系列是主流开源模型精神源头法国Mistral首版模型即开源马斯克Grok成立之初即开源阿里巴巴Qwen成为衍生版本最多的开源模型之一 DeepSeek依靠开源获得巨大影响力[2] 开源动机与客户价值 - 开源模型支持本地部署客户数据可完全存储在本地最大限度保护国家机密和商业机密的数据安全[3] - 客户可基于自身需求对开源模型进行微调尤其契合医疗、金融等复杂或敏感行业的特定应用场景[4] - 预算有限客户在本地硬件运行大模型可能比购买闭源模型使用权更经济 GPT-OSS-20B甚至可运行于笔记本电脑[5] - 本地部署需客户自行负责信息安全和技术维护但许多大型行业客户仍偏好开源模型 LLaMA系列在欧美深受大企业欢迎 DeepSeek因开源特性快速覆盖国内政企客户[6] - OpenAI重返开源战场部分受LLaMA、DeepSeek、Qwen及Grok等开源模型刺激但商业角度决策不可避免因部分企业及政府部门永远不可能将关键数据上传第三方平台[6] 行业格局变化 - 2025年成为"开源之年" 国内百度与国外OpenAI均发布开源模型 Meta发布最新开源版本阿里加快开源版本发布速度[7] - 全球主流大模型开发商中仅Anthropic和字节跳动未发布开源版本字节跳动豆包大模型尚无开源计划且技术不属于全球第一集团开源与否对技术进步影响有限[7] 技术细节与性能 - GPT-OSS两个版本训练数据截止2024年6月训练完成于2024年8月性能大致与四个月前发布的GPT-4o3及o3 mini可比[8] - GPT-OSS-120B表现优于DeepSeek和Qwen最新版本但仅证明OpenAI相对竞争对手仍有数月领先优势未提供新信息[8] - GPT-OSS采用混合专家架构 GPT-OSS 120B每层128个专家 20B每层32个专家每个路径激活4个最擅长专家[9] - 模型在标准文本基础上训练思维链架构于后训练阶段实现与竞争对手一致[10][11] - 后训练阶段采用CoT RL技术使用外部API及RAG Agents 基本证实外界猜测[12] - OpenAI未在后训练阶段压制大模型幻觉因会降低CoT透明度 GPT-OSS深度推理模式幻觉率较高[13] - 公布技术路线大部分已被外界猜测或争辩技术细节如后训练具体手段或带来有限启发[14] 开源局限性 - GPT-OSS仅为"开放权重"模型非完整开源公布内容仅包括参数权重、34页技术白皮书及少量选择性信息[14] - 缺失关键复刻环节包括训练中使用的脚手架模型语料质量检测清洗模型人类价值观对齐Reward模型等[14] - 未公布预训练阶段语料库 Meta曾部分公布LLaMA语料但OpenAI未披露[15] - 训练过程使用的独家工具即便披露名称也无法模仿[16] - 商业公司几乎不可能发布全面开源模型因开源目的为满足客户需求及培育生态而非方便抄袭[16] 算力与训练细节 - GPT-OSS基于英伟达H100 GPU训练 120B版本消耗210万H100小时 20B版本消耗35万H100小时[17] - 以30天训练时间推算需2917张H100 以45天推算需1944张训练数据截止2024年6月且完成于7月底或8月初训练时间不太可能明显超过45天[17] - 模型未使用最新Blackwell系列GPU 也未使用万卡集群或更大规模集群[17] - GPT-4参数规模达1.37万亿是GPT-OSS十倍以上算力需求远超GPT-OSS 宝贵B100/200 GPU可能完全用于GPT-4.5及GPT-5训练[17] - GPT-OSS可能是OpenAI最后几个用Hopper架构GPU训练的模型之一 GPT-4.5后模型可能完全基于Blackwell训练退役H100将转而承担推理任务[18] - 深度推理模型普及推动推理需求爆发全球算力仍需增长3-4倍以满足训练及推理需求[18]