深度推理

搜索文档
OpenAI重返开源大模型赛道,谈一谈我关注的一些要点
虎嗅· 2025-08-06 07:03
开源大模型发布 - OpenAI于2025年8月5日发布两款开源大模型GPT-OSS 120B和GPT-OSS-20B 用户可通过Hugging Face平台下载并修改定制或商业应用 主流云平台包括亚马逊AWS和微软Azure已提供基于这两款模型的服务 这是OpenAI自2019年11月以来首次发布开源大模型[1] 历史背景与行业对比 - OpenAI名称原意为"开放"和"开源" 但自2019年初起偏离开源轨道 2019年2月以安全问题为由拒绝公布GPT-2全部参数权重 仅公布7.74亿参数部分模型 同年11月才公布全部15亿参数 后续GPT-3、GPT-3.5及GPT-4系列均未公布参数权重或技术白皮书[1] - 截至发布时 OpenAI与Anthropic是全球AI大模型基础研发第一集团中仅有的两家未发布新版开源模型的开发者[2] - 竞争对手普遍采用开源策略 谷歌2024年起维持开源Gemma系列与闭源Gemini系列并行 Meta的LLaMA系列是主流开源模型精神源头 法国Mistral首版模型即开源 马斯克Grok成立之初即开源 阿里巴巴Qwen成为衍生版本最多的开源模型之一 DeepSeek依靠开源获得巨大影响力[2] 开源动机与客户价值 - 开源模型支持本地部署 客户数据可完全存储在本地 最大限度保护国家机密和商业机密的数据安全[3] - 客户可基于自身需求对开源模型进行微调 尤其契合医疗、金融等复杂或敏感行业的特定应用场景[4] - 预算有限客户在本地硬件运行大模型可能比购买闭源模型使用权更经济 GPT-OSS-20B甚至可运行于笔记本电脑[5] - 本地部署需客户自行负责信息安全和技术维护 但许多大型行业客户仍偏好开源模型 LLaMA系列在欧美深受大企业欢迎 DeepSeek因开源特性快速覆盖国内政企客户[6] - OpenAI重返开源战场部分受LLaMA、DeepSeek、Qwen及Grok等开源模型刺激 但商业角度决策不可避免 因部分企业及政府部门永远不可能将关键数据上传第三方平台[6] 行业格局变化 - 2025年成为"开源之年" 国内百度与国外OpenAI均发布开源模型 Meta发布最新开源版本 阿里加快开源版本发布速度[7] - 全球主流大模型开发商中仅Anthropic和字节跳动未发布开源版本 字节跳动豆包大模型尚无开源计划 且技术不属于全球第一集团 开源与否对技术进步影响有限[7] 技术细节与性能 - GPT-OSS两个版本训练数据截止2024年6月 训练完成于2024年8月 性能大致与四个月前发布的GPT-4o3及o3 mini可比[8] - GPT-OSS-120B表现优于DeepSeek和Qwen最新版本 但仅证明OpenAI相对竞争对手仍有数月领先优势 未提供新信息[8] - GPT-OSS采用混合专家架构 GPT-OSS 120B每层128个专家 20B每层32个专家 每个路径激活4个最擅长专家[9] - 模型在标准文本基础上训练 思维链架构于后训练阶段实现 与竞争对手一致[10][11] - 后训练阶段采用CoT RL技术 使用外部API及RAG Agents 基本证实外界猜测[12] - OpenAI未在后训练阶段压制大模型幻觉 因会降低CoT透明度 GPT-OSS深度推理模式幻觉率较高[13] - 公布技术路线大部分已被外界猜测或争辩 技术细节如后训练具体手段或带来有限启发[14] 开源局限性 - GPT-OSS仅为"开放权重"模型 非完整开源 公布内容仅包括参数权重、34页技术白皮书及少量选择性信息[14] - 缺失关键复刻环节 包括训练中使用的脚手架模型 语料质量检测 清洗模型 人类价值观对齐Reward模型等[14] - 未公布预训练阶段语料库 Meta曾部分公布LLaMA语料但OpenAI未披露[15] - 训练过程使用的独家工具即便披露名称也无法模仿[16] - 商业公司几乎不可能发布全面开源模型 因开源目的为满足客户需求及培育生态 而非方便抄袭[16] 算力与训练细节 - GPT-OSS基于英伟达H100 GPU训练 120B版本消耗210万H100小时 20B版本消耗35万H100小时[17] - 以30天训练时间推算需2917张H100 以45天推算需1944张 训练数据截止2024年6月且完成于7月底或8月初 训练时间不太可能明显超过45天[17] - 模型未使用最新Blackwell系列GPU 也未使用万卡集群或更大规模集群[17] - GPT-4参数规模达1.37万亿 是GPT-OSS十倍以上 算力需求远超GPT-OSS 宝贵B100/200 GPU可能完全用于GPT-4.5及GPT-5训练[17] - GPT-OSS可能是OpenAI最后几个用Hopper架构GPU训练的模型之一 GPT-4.5后模型可能完全基于Blackwell训练 退役H100将转而承担推理任务[18] - 深度推理模型普及推动推理需求爆发 全球算力仍需增长3-4倍以满足训练及推理需求[18]
智源大会盛况:AI领域精英共绘科技蓝图,探索智能未来新方向
搜狐财经· 2025-08-04 19:16
大会概况 - 第七届北京智源大会于2025年6月在中关村国家自主创新示范区举办,汇聚全球AI领域精英 [1] - 大会自2019年创立以来已成为AI领域重要盛会,连接学术与市场 [1] - 参会者包括4位图灵奖得主(Yoshua Bengio、Richard S Sutton、Joseph Sifakis、姚期智)及Google、DeepMind、meta、华为、百度、字节跳动等企业代表 [1] 技术焦点 - 大会设置近20场专题论坛,讨论多模态技术(处理图像/音频/文本)和深度推理(提升AI逻辑能力) [2] - 多模态技术应用于图像识别、语音识别、自然语言处理领域,通过融合多数据类型提升理解准确性 [2] - 深度推理结合深度学习算法与知识图谱,增强AI在智能客服、医疗、交通等场景的决策能力 [2] 企业参与 - 北京弘易信泰科技发展有限公司展示数据治理解决方案,整合大数据、AI、云计算技术 [4] - 该公司人工智能实验室通过大会交流前沿理念,优化"决胜"系列应用产品线 [4]