Workflow
开源模型
icon
搜索文档
硅谷AI大神“前台打架”,中国校友“幕后练兵”
硅谷AI巨头最新动态 - OpenAI时隔6年首次推出开放权重大语言模型gpt-oss-120b(1170亿参数)和gpt-oss-20b(210亿参数),采用Transformer架构和MoE设计,支持128k上下文,性能接近其商业模型o4-mini和o3-mini [13][21][23] - 谷歌发布文生虚拟世界模型Genie 3,可生成720p/24fps可交互3D世界,实现多分钟实时互动,技术突破可能影响VR、游戏和机器人领域 [6][29][32] - Anthropic升级Claude Opus至4.1版本,AI编程能力提升2%,在Agentic coding等关键指标上保持领先(74.5%),巩固其AI编程赛道优势地位 [38][40][43] 技术参数与性能对比 - gpt-oss-20b在RTX5090上运行速度达160-180 tokens/秒,本地部署性能获用户正面反馈 [23][24] - Genie 3相比前代产品显著提升:分辨率达720p,交互时长扩展至数分钟,延迟实现亚秒级响应 [35][56] - Claude Opus 4.1在多项基准测试中领先:Agentic tool use 82.4%,Graduate-level reasoning 80.9%,Multilingual Q&A 89.5% [40] 行业竞争格局 - OpenAI通过开源模型补足本地部署市场短板,但商用限制条款(年收入>1亿美元或DAU>100万禁用)保持商业策略 [21] - 谷歌凭借持续投入保持技术领先地位,Genie 3是其多年迭代成果,体现大公司研发优势 [34][35] - Anthropic采取差异化竞争策略,专注提升AI编程能力以应对OpenAI和谷歌的全面竞争 [43][44] 华人技术贡献 - OpenAI gpt-oss模型核心团队包含北大校友任泓宇(训练优化专家)和上海交大校友Wang Xin(后训练专家) [48][50][52][53] - 谷歌Genie 3项目有上海交大校友Emma Wang参与,其优化使模型延迟降低10倍,实现24fps流畅度 [56] - 三大巨头研发团队中华人科学家占比显著,体现其在AI领域的技术影响力 [10][46]
OpenAI推出开源模型gpt-oss抗衡中企
日经中文网· 2025-08-07 08:00
OpenAI发布开源模型gpt-oss - OpenAI于8月5日宣布提供名为gpt-oss的开源AI模型 允许开发者免费使用和修改 这是自2019年11月GPT-2以来时隔5年9个月再次开源大规模语言模型 [2] - 公司准备了两种规模不同的模型 相比ChatGPT所用模型 新模型能以更少计算资源高效运行 小型模型甚至适用于笔记本电脑和智能手机 [4] - CEO山姆·奥特曼宣称这是"世界最优秀且最好用的开源模型" 新模型在数学和编程等需要逻辑思维的领域表现优异 [4] 开源战略背景 - OpenAI创立初期采用开源模式 但随着行业竞争加剧逐渐减少信息公开 [5] - 中国企业的崛起成为重要转折点 特别是DeepSeek在1月开源逻辑思维模型R1 被认为能以低成本实现高性能 [5] - 中国企业如阿里巴巴通义千问和Moonshot AI等新兴公司相继发布开源模型 在开源领域形成强劲势头 [5] 行业竞争态势 - OpenAI此次开源被视为抗衡中国AI企业如DeepSeek的策略 [2] - 开源模型领域正成为中美科技企业竞争的新战场 中国企业近期表现活跃 [5]
为了不被挤下牌桌,OpenAI又开源了
搜狐财经· 2025-08-07 04:59
OpenAI战略转向开源 - OpenAI近期开源两款权重模型gpt-oss-120b(1170亿参数)和gpt-oss-20b(210亿参数),分别针对云端高推理与边缘低延迟场景[2] - 这是公司自2019年开源GPT-2后首次重回开源领域,采用Transformer架构和专家混合(MoE)技术[2][7] - 两款模型遵循Apache 2.0开源协议,开发者可本地部署无需API调用,但训练数据和完整训练代码未开源[14][15] 开源模型技术参数 - gpt-oss-120b激活5.1亿参数/token,可在单块英伟达数据中心GPU运行,支持数据中心及高端PC部署[8] - gpt-oss-20b激活36亿参数,仅需16GB内存,适配主流PC设备[8] - 性能测试显示gpt-oss-120b在MMLU达90分,AIME 2025数学竞赛97.9分,接近闭源模型水平[11] 市场竞争格局 - ChatGPT周活用户达7亿(同比+4倍),付费用户500万,Pro会员贡献超60%收入[3] - 企业级市场面临Anthropic(预计35%份额)和谷歌(20%)的竞争压力[3] - 中国开源模型崛起,阿里Qwen系列全球下载量超4亿次,衍生模型14万个,Hugging Face榜单前10中占8席[17][18][22] 开源商业模式 - 开源模型通过云平台(如AWS)扩大影响力,但企业只需支付算力费用不直接向OpenAI付费[17][19] - OpenAI年度经常性收入达120亿美元,远超Anthropic的50亿美元,具备开源商业基础[19] - 行业趋势显示头部企业将采取"开源基础模型+闭源核心模型"的双轨策略[18] 行业发展趋势 - 开源模型性能差距缩小,中国DeepSeek-R1和阿里Qwen 3系列打破闭源优势认知[17] - 开源生态价值在于构建开发者网络,全球反馈加速模型迭代[18] - 当前开源领域更易形成"赢家通吃",但长期竞争格局仍存变数[22]
全网开测GPT-oss!技术架构也扒明白了
量子位· 2025-08-07 00:56
模型性能表现 - GPT-oss在多项基准测试中表现优异,横扫GPQA Diamond、AIME 2024、AIME 2025和Codeforces榜单,超越DeepSeek R1、Qwen3、Llama 4、Kimi K2等开源模型 [4][5] - 在MMLU测试中Qwen3-235B略胜一筹,Kimi-K2在SWE-Bench上得分更高 [7] - GPT-oss-120B在核心推理基准测试中与o4-mini效果相当,可在单个80GB GPU上高效运行 [9] - 20B模型在编码测试中表现出色,能准确模拟复杂物理场景和完成3D渲染任务 [11][12][13] - 模型通过经典逻辑测试如"英文草莓里有多少个字母'r'"和鹈鹕推理测试,展现强大空间想象力和逻辑连贯性 [15] 技术架构分析 - GPT-oss结构设计更宽,拥有更多注意力头、更高隐藏维度和更多Transformer模块 [22] - 注意力机制中添加了偏差单元,这一结构曾在GPT-2中出现 [24] - 采用MoE Transformer核心架构,通过细节优化提升性能并降低复杂度 [26] - 使用改进的swiglu激活函数,通过α=1.702让silu近似gelu,并采用裁剪激活值等技术防止梯度爆炸 [26][27] - 采用YaRN技术扩展上下文窗口,提升长文本处理能力 [28] 应用场景与生态 - 网友开发多种应用场景,包括论文解读、数据整理和构建GPT-oss Pro版(10个模型连接) [17][18][20] - 模型可轻松将PDF、Word等原始数据转换为LLM测试集 [19] - AWS宣布通过Amazon Bedrock和Amazon SageMaker上线该模型,便于构建生成式AI应用 [34] - 吴恩达等专家测试后认为GPT-oss-120B性能强大,Binyuan Hui指出其合成数据训练方法有助于小模型性能提升 [37] 成本与可用性 - GPT-oss-120B训练成本约420万至2310万美元,20B模型成本为其十分之一 [30] - 20B模型可在16GB内存边缘设备运行,适合本地推理和快速迭代 [9] - 用户可通过LM Studio下载20B模型,或使用AWS平台部署 [33][34] 局限性及改进 - 模型在非英语文本上表现不佳,55%情况下存在语法或拼写错误 [30] - 官方发布技术文档指导用户通过LoRA微调实现多语言支持 [32]
中国“霸榜”全球开源大模型:光环下的隐忧与挑战丨人工智能AI瞭望台
证券时报· 2025-08-07 00:32
中国开源大模型全球领先地位 - 全球知名AI开源社区Hugging Face榜单显示排名前十的开源大模型中中国占据九席 [1][4] - 智谱GLM-4.5排名第一 阿里通义千问系列独霸五个席位 腾讯混元大模型和月之暗面Kimi K2同时上榜 [4] - 中国开源大模型以集群式崛起重塑全球AI版图 自年初至今DeepSeek和阿里被称为开源双子星 [1][4] 开源模型爆发式增长 - 2024年7月底国产大模型迎来开源井喷潮:阿里连续发布4款开源模型 腾讯开源混元3D世界模型1.0 智谱发布GLM-4.5 阶跃星辰开源Step-3 [4] - 开源模式降低使用门槛 通过微调定制服务、云平台分成等路径实现盈利 [8][9] - 头部企业开放代码汇聚众智形成良性循环正向反馈 [5] 中美技术路径分化 - 中国大力拥抱开源模型 美国科技公司主流选择闭源模型 Meta创始人表示会谨慎选择开源内容 [7] - 后发者倾向于开源打破闭源者构建的生态 先发者倾向于闭源保持独特性 [8] - 中国凭借开源技术透明性在全球获得信任建立开发者生态 [8] 技术优势与驱动因素 - 依托海量优质中文语料深度挖掘垂直应用场景构建差异化训练数据集 [5] - 华为昇腾为代表的国产化算力底座成熟 为大规模分布式训练奠定基础 [5] - 数据-算力-场景构筑强劲闭环优势 [5] 创新瓶颈与同质化挑战 - 开源模型基于主流Transformer架构微调 能力差距未拉开 存在微调内卷倾向 [2][11] - 模型进步依赖工程调优而非训练框架及算法创新 缺乏颠覆式创新 [11] - 新模型推出频繁但技术壁垒不足 能力差距未拉开 [11] 开发者生态面临挑战 - 模型更新频繁导致接口变化 开发者需反复重写模型调用脚本 [1][12] - 密钥管理割裂 版本迭代失控 集成工作面临困扰 [11][12] - 版本更迭过频导致下游应用适配成本激增 [12] 盈利模式探索 - 智谱向企业和政府提供付费定制化解决方案 [9] - 阿里通过开源模型吸引开发者使用其云计算等基础设施 [9] - 通过云服务获取收益 [9]
中国“霸榜”全球开源大模型:光环下的隐忧与挑战丨人工智能AI瞭望台
证券时报· 2025-08-07 00:12
中国开源大模型崛起 - 中国开源大模型呈现"集群式"崛起,近期阿里、腾讯、智谱等公司密集开源新模型,Hugging Face榜单前十中中国占据九席 [2][4] - 阿里通义千问系列两周内开源六款模型,腾讯混元3D世界模型、智谱GLM-4.5、阶跃星辰Step-3等相继发布,形成"开源井喷潮" [4] - DeepSeek的成功被视为开源路径的标杆,推动更多中国公司转向开源策略 [4] 中美AI发展路径分化 - 中国公司普遍选择开源路线,而美国Meta等公司转向闭源,OpenAI等先发者通过闭源巩固技术壁垒 [7] - 开源模式帮助中国后发者快速建立开发者生态,通过技术透明性获取全球信任 [7][8] - 中国厂商依托中文语料库和国产算力底座(如华为昇腾)构建差异化优势,形成"数据-算力-场景"闭环 [5] 商业化探索 - 开源模型通过云服务分成(阿里)、定制化解决方案(智谱)等模式实现盈利,降低中小企业AI使用门槛 [8] - 开源加速AI在智能制造质检、金融风控等领域的落地,推动技术普及 [8] 技术挑战与隐忧 - 当前开源模型仍基于Transformer架构微调,存在"微调内卷"和同质化问题,缺乏底层架构创新 [10] - 模型迭代过快导致开发者面临接口频繁变更、密钥管理割裂等问题,适配成本激增 [10][11] - 需推动统一API标准并加强基础算法创新,避免低水平重复建设 [10][11]
DeepSeek终于把OpenAI逼急了
OpenAI发布开源模型GPT-OSS - OpenAI突然发布首个开源语言模型GPT-OSS,包括gpt-oss-120b和gpt-oss-20b两个版本 [5][6][9] - gpt-oss-120b采用MoE架构,拥有1170亿参数,激活参数约51亿,可在单张80GB GPU上运行,性能接近闭源o4-mini [10] - gpt-oss-20b基于MoE架构,有210亿参数,激活参数约36亿,可在16GB内存设备上流畅运行,性能接近o3-mini [11] - 模型训练数据涵盖多语种多领域,且可免费用于商业用途 [14] OpenAI战略转向 - 此前OpenAI一直坚持"闭源+收费"路线,GPT-4和GPT-4o核心模型均未开放 [12] - GPT-OSS的发布标志着公司从闭源独占转向开放协作的模型生态 [16] - 这一战略调整被认为是深思熟虑的结果,而非一时冲动 [16] 中国开源模型的快速发展 - 中国开源模型发展迅猛,DeepSeek凭借R1模型引发行业关注,其V2模型通过结构创新大幅降低成本 [18] - 阿里通义千问(Qwen)近三个月密集迭代,发布6波更新,新增55个以上模型版本 [20] - 中国开源生态蓬勃发展,涌现出Kimi K2、智谱GLM-4.5、腾讯混元HunyuanWorld-1等有影响力的开源模型 [20] - 中国开源模型在编程、数学、多语言等领域正逼近甚至超越OpenAI闭源模型 [20] 行业竞争格局变化 - 中国开源模型的爆发式发展触动了OpenAI和硅谷的神经 [22] - Meta正酝酿策略转向,可能放弃开源策略转而开发闭源模型 [22] - OpenAI与Meta的竞争加剧,OpenAI采取员工信息保护等措施应对 [22]
资金动向 | 北水买日港股超90亿港元,加仓腾讯、阿里
格隆汇· 2025-08-06 19:07
南下资金流向 - 腾讯控股获南下资金净买入15.18亿港元,连续10日累计净买入59.4402亿港元 [1] - 阿里巴巴-W获南下资金净买入8.76亿港元,连续3日累计净买入21.1572亿港元 [1] - 中芯国际获南下资金净买入6.11亿港元,连续3日累计净买入9.5105亿港元 [1] - 晶泰控股获南下资金净买入5.32亿港元 [1] - 康方生物获南下资金净买入1.37亿港元 [1] - 理想汽车-W获南下资金净买入1.19亿港元 [1] - 小米集团-W遭南下资金净卖出2.29亿港元 [1] - 泡泡玛特遭南下资金净卖出2.23亿港元 [1] - 美团-W遭南下资金净卖出1.47亿港元 [1] 个股表现 - 腾讯控股股价上涨1.7%,成交额45.54亿港元 [3] - 品泰控股股价大涨12.4%,成交额45.18亿港元 [3] - 阿里巴巴-W股价上涨0.6%,成交额31.64亿港元 [3] - 中芯国际股价上涨3.1%,成交额23.30亿港元 [3] - 理想汽车-W股价下跌5.4%,成交额21.94亿港元 [3] - 美团-W股价下跌1.5%,成交额19.70亿港元 [3] - 泡泡玛特股价上涨7.9%,成交额16.75亿港元 [3] - 英诺赛科股价下跌8.6%,成交额14.27亿港元 [3] - 比亚迪电子股价上涨6.7%,成交额12.83亿港元 [3] - 小米集团-W股价下跌0.6%,成交额12.76亿港元 [3] 公司动态 - 阿里巴巴-W推出全新大会员体系,整合饿了么、飞猪等阿里系资源 [5] - 阿里巴巴开源文生图模型Qwen-Image,登上Hugging Face模型榜单首位 [5] - 中芯国际将于8月7日发布财报,市场预期Q2营收21.85亿美元(同比增14.91%) [6] - 晶泰控股与美国DoveTree达成60亿美元AI制药合作订单 [6] - 理想汽车联合中国汽研、东风柳汽发布行业自律倡议 [6] - 大摩维持泡泡玛特"增持"评级,目标价365港元 [6]
时隔六年,OpenAI 为什么再次开源?
Founder Park· 2025-08-06 14:00
文章核心观点 - OpenAI发布开源模型gpt-oss,这是继GPT-2后首次开源尝试,性能与o4 mini相当但成本降低至少10倍[2][7] - 公司战略重心从模型本身转向用户基础和应用生态,开源旨在吸引企业用户而非传统开源社区[4][5][12] - 模型采用稀疏MoE架构,与行业趋势一致,但技术细节披露有限且存在"伪开源"争议[14][19] - 中美开源模型竞争格局可能因此改变,小模型系列(10-70亿参数)将迎来机会[20][22] 模型性能与技术细节 - gpt-oss-120b在MMLU测试得分90,GPQA Diamond 80.1,AIME 2024 96.6,与o4 mini性能接近[3] - 采用混合专家(MoE)架构,gpt-oss-120b含51亿活跃参数/1210亿总参数,支持MXFP4量化[7][14][15] - 模型原生支持工具调用但生态混乱,存在"幻觉"工具调用的风险[17] - 官方未公布训练数据/代码/技术报告,安全措施限制微调自由度[12][15] 战略意图分析 - 通过成本优势(比o4 mini低10倍)冲击API市场,为GPT-5发布铺路[10][13] - 目标用户是企业而非开源社区,旨在构建应用生态而非技术共享[5][12][19] - 公司认识到模型本身不再是核心竞争力,用户规模和应用生态才是护城河[4][13] - 此举可能改变中美开源竞赛格局,美国开源生态有望扭转落后局面[21][22] 行业影响 - 稀疏MoE架构成为行业标准,中国模型如DeepSeek V3/Qwen已形成技术积累[14][22] - 开源模型激励机制不稳定,中美采取不同发展路径[22][23] - 小参数模型(10-70亿)将迎来发展机会,大模型竞争激烈[20][22] - 需要基础模型和训练细节的全面公开以促进研究,当前发布存在不足[24]
DeepSeek终于把OpenAI逼急了
凤凰网· 2025-08-06 08:21
OpenAI战略转向 - 公司发布首个开源语言模型GPT-OSS 包括120B和20B两个版本 [1][3] - GPT-OSS-120B采用MoE架构 总参数1170亿 激活参数51亿 单张80GB GPU即可运行 性能接近闭源o4-mini [4] - GPT-OSS-20B总参数210亿 激活参数36亿 16GB内存设备可流畅运行 性能接近o3-mini [4] - 模型支持多语种多领域训练数据 可免费商用 [4][5] 中国开源模型发展 - DeepSeek通过模型结构创新大幅降低成本 被业内称为"AI届拼多多" [7] - 阿里通义千问近三个月发布6波更新 新增55个以上模型版本 [8] - 中国形成"开源四杰"生态格局 包括通义Qwen Kimi K2 智谱GLM-4.5 腾讯混元HunyuanWorld-1 [8] - 中国开源模型在编程 数学 多语言等领域逼近或超越OpenAI闭源模型 [8] 行业竞争格局变化 - OpenAI从闭源收费模式转向开放协作生态 [6] - Meta考虑放弃开源策略 转向开发闭源模型 [9] - OpenAI采取员工信息保护措施 防止人才被挖角 [9] - 中国开源模型的爆发式发展触动OpenAI和硅谷神经 [1][9]