开源模型

搜索文档
OpenAI、谷歌等深夜更新多款模型 展示开源、智能体、世界模型进展
第一财经· 2025-08-06 04:59
大模型厂商新品发布 - AI创业公司Anthropic发布Claude Opus 4 1 称该模型是Opus 4在代理任务 现实世界编码和推理方面的升级版 [1] - 谷歌推出新一代世界模型Genie 3 这是公司第一个支持实时交互的世界模型 [1] - OpenAI开源gpt-oss-120b和gpt-oss-20b两个推理模型 这是OpenAI时隔六年再次开源模型 [1] OpenAI开源策略转变 - OpenAI开源的gpt-oss-120b参数量为1170亿 采用MoE架构 激活参数量51亿 [2] - gpt-oss-20b参数量为210亿 同样采用MoE架构 激活参数量36亿 [2] - gpt-oss-120b在竞赛编码 工具调用基准测试中的得分接近或超过闭源的o4-mini模型 [2] - gpt-oss-20b在基准测试中的分数与o3-mini相当或超过o3-mini [2] - 新模型可在电脑 手机等端侧设备上本地部署 gpt-oss-120b可在单张80GB容量的GPU上运行 gpt-oss-20b可在16GB内存的消费级设备上运行 [2] Anthropic产品策略调整 - Anthropic决定更频繁地推出产品渐进式更新 而非只专注于重大版本更新 [3] - Claude Opus 4 1在深入研究 数据分析 代理搜索方面的能力较前一代有所提升 [3] - 新产品擅长处理复杂的多步骤问题 被定位为更有效的AI智能体 [3] - 在SWE-bench Verify基准测试中 Claude Opus 4 1得分74 5% 超过Opus 4的72 5% [4] - 在Terminal-Bench GPQA Diamond MMMLU基准测试中的得分分别为43 3% 80 9% 89 5% 超过Opus 4的39 2% 79 6% 88 8% [4] 谷歌世界模型进展 - 谷歌推出通用世界模型Genie 3 是公司第一个允许进行实时交互的世界模型 [5] - Genie 3可以生成多样化的交互环境 模拟水 光等自然现象 生成包含动物 植物的生态系统 创造动画角色并模拟复杂环境下各种元素的相互作用 [5] - Genie 3可以以每秒24帧的速度进行导航 在720p分辨率下保持长达几分钟的画面一致性 视觉记忆可追溯至一分钟前 [5] - Genie 3可生成长达几分钟的画面一致性 而Genie 2只能生成8秒 [6] - Genie 3可模拟灯光节期间在水面上行驶的摩托艇 效果十分真实 [6]
OpenAI、谷歌等深夜更新多款模型,展示开源、智能体、世界模型进展
第一财经· 2025-08-06 04:49
OpenAI产品策略变化 - OpenAI时隔六年再次开源模型,推出gpt-oss-120b和gpt-oss-20b两个推理模型,参数量分别为1170亿和210亿,均采用MoE架构 [1][2] - 开源策略转变源于DeepSeek引领的开源趋势,CEO表示推出强大开源模型"非常重要",这两款模型是耗资数十亿美元的研究成果 [1] - gpt-oss-120b在竞赛编码、工具调用基准测试中接近或超过闭源o4-mini,gpt-oss-20b与o3-mini相当或更优,性能属开源模型第一梯队 [2] - 新模型支持端侧设备本地部署,gpt-oss-120b可在单张80GB GPU运行,gpt-oss-20b可部署在16GB内存消费级设备甚至手机 [2] Anthropic产品策略变化 - 公司改变以往专注重大版本更新的策略,转向更频繁推出渐进式更新,此次发布Claude Opus 4.1并计划未来几周推出更多更新 [3] - Claude Opus 4.1在代理任务、现实世界编码和推理方面升级,擅长处理复杂多步骤问题,定位为更有效的AI智能体 [1][3] - 在SWE-bench Verify测试中得分74.5%超过前代72.5%,Terminal-Bench、GPQA Diamond、MMMLU测试分别达43.3%、80.9%、89.5%均超前代 [4] - 用户反馈显示代码修改精准度和调试效率明显改善 [4] 谷歌世界模型进展 - 推出首个支持实时交互的通用世界模型Genie 3,被视为迈向AGI的关键垫脚石 [5] - 可生成多样化交互环境,模拟水、光等自然现象及生态系统,动画角色和复杂元素相互作用,画面一致性达几分钟 [5] - 相比Genie 2的8秒画面一致性,Genie 3能生成长达几分钟的720p画面,视觉记忆可追溯一分钟前 [5][6] - 演示显示可模拟摩托艇撞击效果、生成推进视角的教室场景等高度逼真交互 [6] - 仍存在动作空间有限、多智能体交互模拟困难、交互时长不足数小时等局限 [9] 行业技术趋势 - 大模型能力持续升级,通过开源端侧部署模型、推进智能体技术、实现世界模型交互等方式提升可用性 [9]
谁在拆 OpenAI 的围墙?
36氪· 2025-08-06 01:41
OpenAI战略转向开源 - OpenAI突然宣布开源两款新模型gpt-oss-120b和gpt-oss-20b 这是自GPT-2以来首次重新向开源社区开放模型权重 [1] - 公司过去几年一直是"闭源派"代表 依靠GPT-3和GPT-4的技术优势建立商业壁垒 几乎垄断大模型时代的入口和定价权 [1] - 此次开源采用Apache 2 0协议 明确允许商用和二次开发 直接对标Meta的Llama模型 [3] 开源策略的深层考量 - 公司保留核心技术护城河 未开放GPT-4核心架构 仅提供中等规模模型 既不影响高端产品线又能吸引开发者 [3] - 底层代码修改受限 训练数据 优化策略和系统架构等关键要素仍由公司掌控 [3] - 通过部分开放换取生态主导权 让开发者依赖其工具链 同时通过闭源体系维持高利润业务 [4] 行业竞争格局变化 - 开源模型性能已逼近GPT-4 成本仅为1/20 采用宽松开源协议形成市场竞争压力 [2] - Anthropic采取相反策略 发布闭源模型Claude 4 1 专注企业级安全和可靠性 瞄准金融 法律等高端客户 [5][6] - AI行业进入分层竞争时代 OpenAI双轨制与Anthropic专精路线形成差异化竞争 [7] 开发者生态影响 - 新模型支持本地部署和云端扩展 兼容主流框架 大幅降低智能体开发门槛 [8] - 独立开发者可在个人设备运行接近GPT-4能力的模型 可能催生新一代AI应用创新 [8] - 开源生态正在消费端实现反超 类似Linux Firefox Android等历史案例的开源成功路径 [10] 监管与风险对冲 - 美国自2023年加强AI监管 开源模型因透明可审计的特性更易通过合规审查 [8] - 公司通过开源策略提前卡位 为未来监管环境变化做好准备 [8] - 技术流动性和生态开放性成为行业新竞争维度 [10]
奥特曼深夜官宣:OpenAI重回开源,两大推理模型追平o4-mini,号称世界最强
36氪· 2025-08-06 00:31
OpenAI深夜扔出开源核弹,gpt-oss 20B和120B两款模型同时上线。它们不仅性能比肩o3-mini和o4-mini,而且还能在消费级显卡甚至手机上轻松运行。 GPT-2以来,奥特曼终于兑现了Open AI。 他来了!他来了! 就在今夜,奥特曼带着两款全新的开源模型走来了! 正如几天前泄露的,它们分别是总参数1170亿,激活参数51亿的「gpt-oss-120b」和总参数210亿,激活参数36亿的「gpt-oss-20b」。 终于,OpenAI再次回归开源。 gpt-oss-120b 在核心推理基准测试中,120B模型的表现与OpenAI o4-mini相当,并且能在单张80GB显存的GPU上高效运行(如H100)。 gpt-oss-20b适用于低延迟、本地或专业化场景 在常用基准测试中,20B模型的表现与OpenAI o3-mini类似,并且能在仅有16GB显存的边缘设备上运行。 除此之外,两款模型在工具使用、少样本函数调用、CoT推理以及HealthBench评测中也表现强劲,甚至比OpenAI o1和GPT-4o等专有模型还要更强。 其他亮点如下: 宽松的Apache 2.0许可证:可自由用于 ...
OpenAI发布2款开源模型,北大校友扛大旗
虎嗅· 2025-08-06 00:15
本文来自微信公众号:APPSO (ID:appsolution),作者:发现明日产品的,原文标题:《刚刚,OpenAI发布2款开源模型!手机笔记本也能跑,北大校 友扛大旗》,题图来自:AI生成 时隔五年之后,OpenAI刚刚正式发布两款开源权重语言模型——gpt-oss-120b和gpt-oss-20b,而上一次他们开源语言模型,还要追溯到2019年的GPT-2。 OpenAI是真open了。 而今天AI圈也火药味十足,OpenAI开源gpt-oss、Anthropic推出Claude Opus 4.1(下文有详细报道)、Google DeepMind发布Genie 3,三大巨头不约而同在 同一天放出王炸,上演了一出神仙打架。 OpenAI CEO Sam Altman(山姆·奥特曼)在社交媒体上的兴奋溢于言表:"gpt-oss发布了!我们做了一个开放模型,性能达到o4-mini水平,并且能在高端 笔记本上运行。为团队感到超级自豪,这是技术上的重大胜利。" 模型亮点概括如下: gpt-oss-120b:大型开放模型,适用于生产、通用、高推理需求的用例,可运行于单个H100 GPU(1170亿参数,激活参数为5 ...
OpenAI发布ChatGPT世代首个开源模型gpt-oss,4060Ti都能跑得动。
数字生命卡兹克· 2025-08-05 22:08
行业动态 - Google发布世界模型Genie 3 该模型引发行业高度关注 被视为游戏和VR领域的重要突破[3] - Anthropic发布Claude Opus 4 1 在编程能力上持续进化 被解读为针对OpenAI的竞争行为[5][7] OpenAI开源模型GPT-oss - 公司首次在ChatGPT时代发布开源模型 包含120B和20B两个MoE架构版本[9][12][14] - 模型采用Apache 2 0许可 允许自由使用 120B版本参数117B 激活参数5 1B 20B版本参数20 9B 激活参数3 6B 均支持128K上下文[14][15][16][17] - 原生支持4-bit量化技术 20B模型仅需12 8GB存储空间 可在16GB显卡运行 120B模型可在80G单卡运行[18][20][25][26] - 采用MXFP4量化格式 性能损失极小 与英伟达NVFP4技术类似[24][27][29] 模型性能表现 - 在MMLU测试中 120B和20B版本分别获得90 0和85 3分 接近OpenAI商业版本[32] - 在GPQA Diamond测试中分别获得80 1和71 5分 在AIME数学竞赛中表现优异[32][38] - 在Codeforces编程测试中分别获得2622和2516分 优于DeepSeek R1但逊于商业版本[32] - 在写作能力测试中 20B版本表现优于同尺寸开源模型 但逊于商业大模型[67][69] 应用场景 - 提供在线试用平台gpt-oss com 并已接入OpenRouter API服务[39][40] - 支持本地部署 可通过Ollama工具运行 20B版本响应速度极快[44][49][50][51] - 在代码生成和数学推理方面表现突出 但存在一定幻觉问题[74][75] - 被视为改变开源社区格局的重要产品 可能推动行业竞争格局变化[80][81]
六年来首次!OpenAI新模型开放权重,Altman称为"全球最佳开放模型"
华尔街见闻· 2025-08-05 20:05
公司动态 - OpenAI发布六年来首批开放权重模型gpt-oss-120b和gpt-oss-20b,这是自2019年GPT-2后首次开放模型权重[1] - 两款模型采用专家混合(MoE)架构,gpt-oss-120b总参数1170亿,每token激活5.1亿参数;gpt-oss-20b总参数210亿,每token激活3.6亿参数[5][6] - 模型支持128k上下文长度,gpt-oss-20b可在16GB内存设备运行,gpt-oss-120b需要约80GB内存[2][6] 技术性能 - gpt-oss-120b在竞赛编码、通用问题求解和工具调用方面超越o3-mini并匹敌o4-mini,在健康查询和竞赛数学方面甚至超过o4-mini[7] - gpt-oss-20b性能达到或超过o3-mini,在竞赛数学和健康领域表现更优[7][8] - 模型采用交替密集和局部带状稀疏注意力模式,支持本地推理无需联网[3][5] 战略合作 - 亚马逊首次在其Bedrock和SageMaker平台提供OpenAI模型[3] - 微软将为Windows设备提供GPU优化版gpt-oss-20b,支持通过VS Code工具包获取[4] - 公司与英伟达、AMD等芯片商合作确保跨平台兼容性,英伟达CEO称赞其开源创新[15] 安全措施 - 模型经过严格安全测试,预训练时过滤化学、生物、放射性和核相关有害数据[11] - 开展50万美元奖金红队挑战赛,鼓励发现安全问题[12] - 采用Apache 2.0许可免费提供,可通过Hugging Face和GitHub下载[11] 市场影响 - 发布被视为对Meta、Mistral AI和中国DeepSeek等竞争对手的回应[1] - 标志公司战略转向,此前多次推迟开放权重模型发布[3] - 开放权重形态介于开源闭源之间,允许用户查看修改模型权重[3]
中国AI猛追美国
日经中文网· 2025-08-05 02:43
中国AI行业发展现状 - 中国国内完成备案的AI模型数量半年增长45%,累计达439款 [4] - 世界人工智能大会参展企业数量同比增加60%,展示40多款AI模型和60多款机器人 [4] - 中国生成式AI性能与美国差距从2024年1月的9.26%缩小至2025年2月的1.7% [5] 企业动态与技术进展 - 阿里巴巴展示开源AI模型"Qwen2.5-Max",在日语测试中全球排名第12位,超越Meta同类产品 [7] - 京东集团宣布开始提供开源型AI智能体 [7] - DeepSeek开发低成本基础模型引发全球关注,推动中国企业加速开源模型公开 [7] 国际竞争格局 - 美国发布《AI行动计划》国家战略,试图通过技术优势遏制中国AI发展 [9] - 中国在半导体领域推进国产化,但尖端芯片仍依赖美国产品 [9] - 全球50%的AI研究人员为中国人,中国在人才储备和生态系统活跃度上具有优势 [7] 跨国合作与影响 - 日本国立信息学研究所采用阿里巴巴Qwen模型开发本土AI"LLM-jp-3.1" [8] - 中国计划向新兴市场推广AI模型,中美未来将在服务出口领域展开竞争 [9] - 中国国务院总理呼吁成立AI合作组织,解决芯片短缺和人才交流受限问题 [4]
对话PPIO姚欣:AI大模型赛道加速内卷,但合理盈利路径仍需探索
钛媒体APP· 2025-08-05 02:23
公司业务与定位 - PPIO是一家独立分布式云计算服务商 专注于边缘云计算和AI云计算服务 在中国独立边缘云计算服务商中排名第一 市场份额为4.1% [4][14] - 公司运营中国最大的算力网络 按计算节点数计 在中国边缘云计算服务提供商中排名第七 [4] - PPIO在IaaS PaaS MaaS三层都具备相应技术能力 为国内外领先科技公司提供服务 包括中国前十大互联网公司的大部分 [14] - 公司正式发布国内首个Agentic AI基础设施服务平台 包括兼容E2B接口的Agent沙箱和模型服务 支持百款主流开源与定制AI模型的快速接入 [5] 技术优势与创新 - 对DeepSeek-R1模型进行优化 采用PD分离等创新分布式计算技术 使吞吐量提高10倍以上 理论运营成本降低高达90% [4] - 通过算子融合 低精度量化及投机采样等技术 将模型输出效率提高7倍以上 理论运营成本降低85.7% [4] - 具备很强的调度能力 融合能力 模型优化 底层算子等技术能力 能提升GPU资源利用率 [14] - 研发国内首款兼容E2B接口的Agent沙箱 专为Agent执行任务设计 在云端环境运行 [5] 市场表现与增长 - AI云计算服务增长迅速 日均token消耗量从2024年12月的271亿次增至2025年6月的2000亿次 在中国独立AI云计算服务供应商中位列前两名 [5] - 公司于2025年6月正式向港交所提交上市招股书 启动IPO上市之路 [5] 行业观点与趋势 - AI Infra基础设施领域是非常低毛利 海量规模 长周期的市场 类比水电气煤等公共基础设施 [6][17] - 未来AI算力需求将从训练转向推理 从中心化架构转向分布式架构 推理计算卡将百花齐放 [7][18] - 推理算力占比将达到95% 训练只占5% 大量数据中心需要分布式以及海量的推理优化 [22] - 开源模型对于AI行业发展更有利 能让AI Infra公司有更多发展机遇 [6][10] 算力架构发展 - 中国AI算力底层做算力网络 东数西算 在算力调度和整合方面具有优势 类似高铁网和电力调度网 [22] - 美国算力底层在做星际之门 堆20万张卡 但面临散热 能耗 电网冲击等挑战 [22] - 训推一定会分离 训练集群和推理集群将是两个集群 目前训推一体是为了训练削峰填谷 [22] 应用场景拓展 - 边缘云和AI推理云业务将融合 满足云边端不同需求 特别是机器人 自动驾驶等对低时延有要求的场景 [25][26] - 机器人 自动驾驶的实时计算需要毫秒级处理速度 只能使用本地化算力 [24] - 复杂任务如任务拆解 推理 形成代码等需要至少30B参数规模 且Agent会运行在云端 [25] 硬件与软件协同 - 国产算力卡在推理时代迎来发展机会 特别是加了PD分离架构之后 [20] - 硬件软件快速迭代 良性结合推动AI时代加速 端到端垂直整合能力越来越重要 [20] - 多卡融合 多卡兼容解决方案成为普遍趋势 以应对AI芯片卡脖子风险 [21]
大模型年中报告:Anthropic 市场份额超 OpenAI,开源模型企业采用率下降
Founder Park· 2025-08-04 13:38
基础大模型发展趋势 - 基础大模型正成为生成式AI核心引擎并重塑计算未来 其能力与成本控制的演进将推动系统 应用及产业格局变革 [2] - 模型API支出在6个月内从35亿美元增长至84亿美元 企业重心从训练微调转向模型推理 标志阶段性转折 [2] - 代码生成成为首个大规模爆发的AI应用场景 基础模型能力升级路径新增"带验证器的强化学习"(RLHF with verifiers) [2] 市场竞争格局变化 - Anthropic以32%企业使用率超越OpenAI(25%)和Google(20%) 成为市场新领跑者 Meta Llama占9% DeepSeek仅1% [9] - Anthropic崛起始于2024年6月Claude Sonnet 3 5发布 2025年系列版本(Claude Sonnet 3 7/4 Opus 4 Claude Code)巩固领先地位 [12] - 企业投入集中流向少数高性能闭源模型 开源采用趋势因前沿突破放缓而减弱 [3] Anthropic成功驱动因素 - 代码生成领域占据42%市场份额(OpenAI为21%) 催生19亿美元生态系统及AI IDE 应用构建工具等新形态产品 [13][14] - 采用带可验证奖励的强化学习(RLVR)突破数据瓶颈 成为提升模型可靠性与实际能力的关键路径 [15] - 率先实现Agent范式突破 通过多轮自我优化及工具调用提升模型执行力 2025年被称为"Agent之年" [16] 开源模型发展现状 - 开源模型运行任务占比从19%降至13% Meta Llama仍领先但Llama 4表现未达预期 [17] - 中国公司贡献突出开源模型(DeepSeek 字节跳动 阿里巴巴等) 但性能落后前沿闭源模型9-12个月 叠加部署复杂度导致份额停滞 [17][20] - 开源吸引力在于定制化 成本优势及私有化部署 但初创企业生产负载正加速转向闭源 [20] 企业模型选择行为 - 66%开发者选择原供应商升级 仅11%切换供应商 性能(非价格)是核心决策因素 [24][27] - 性能优先逻辑下 旧模型即使降价十倍也无法挽回用户 Claude 4发布一个月内即抢占45%用户 [27][30] - AI支出从训练转向推理 初创企业推理任务占比从48%升至74% 近半数企业主要计算任务由推理驱动 [31]