开源模型 - 财报，业绩电话会，研报，新闻 - Reportify

开源模型

搜索文档

OpenAI、谷歌等深夜更新多款模型展示开源、智能体、世界模型进展

第一财经· 2025-08-06 04:59

大模型厂商新品发布 - AI创业公司Anthropic发布Claude Opus 4 1 称该模型是Opus 4在代理任务现实世界编码和推理方面的升级版 [1] - 谷歌推出新一代世界模型Genie 3 这是公司第一个支持实时交互的世界模型 [1] - OpenAI开源gpt-oss-120b和gpt-oss-20b两个推理模型这是OpenAI时隔六年再次开源模型 [1] OpenAI开源策略转变 - OpenAI开源的gpt-oss-120b参数量为1170亿采用MoE架构激活参数量51亿 [2] - gpt-oss-20b参数量为210亿同样采用MoE架构激活参数量36亿 [2] - gpt-oss-120b在竞赛编码工具调用基准测试中的得分接近或超过闭源的o4-mini模型 [2] - gpt-oss-20b在基准测试中的分数与o3-mini相当或超过o3-mini [2] - 新模型可在电脑手机等端侧设备上本地部署 gpt-oss-120b可在单张80GB容量的GPU上运行 gpt-oss-20b可在16GB内存的消费级设备上运行 [2] Anthropic产品策略调整 - Anthropic决定更频繁地推出产品渐进式更新而非只专注于重大版本更新 [3] - Claude Opus 4 1在深入研究数据分析代理搜索方面的能力较前一代有所提升 [3] - 新产品擅长处理复杂的多步骤问题被定位为更有效的AI智能体 [3] - 在SWE-bench Verify基准测试中 Claude Opus 4 1得分74 5% 超过Opus 4的72 5% [4] - 在Terminal-Bench GPQA Diamond MMMLU基准测试中的得分分别为43 3% 80 9% 89 5% 超过Opus 4的39 2% 79 6% 88 8% [4] 谷歌世界模型进展 - 谷歌推出通用世界模型Genie 3 是公司第一个允许进行实时交互的世界模型 [5] - Genie 3可以生成多样化的交互环境模拟水光等自然现象生成包含动物植物的生态系统创造动画角色并模拟复杂环境下各种元素的相互作用 [5] - Genie 3可以以每秒24帧的速度进行导航在720p分辨率下保持长达几分钟的画面一致性视觉记忆可追溯至一分钟前 [5] - Genie 3可生成长达几分钟的画面一致性而Genie 2只能生成8秒 [6] - Genie 3可模拟灯光节期间在水面上行驶的摩托艇效果十分真实 [6]

Claude Opus 4.1

Claude Opus 4.1

OpenAI、谷歌等深夜更新多款模型，展示开源、智能体、世界模型进展

第一财经· 2025-08-06 04:49

OpenAI产品策略变化 - OpenAI时隔六年再次开源模型，推出gpt-oss-120b和gpt-oss-20b两个推理模型，参数量分别为1170亿和210亿，均采用MoE架构 [1][2] - 开源策略转变源于DeepSeek引领的开源趋势，CEO表示推出强大开源模型"非常重要"，这两款模型是耗资数十亿美元的研究成果 [1] - gpt-oss-120b在竞赛编码、工具调用基准测试中接近或超过闭源o4-mini，gpt-oss-20b与o3-mini相当或更优，性能属开源模型第一梯队 [2] - 新模型支持端侧设备本地部署，gpt-oss-120b可在单张80GB GPU运行，gpt-oss-20b可部署在16GB内存消费级设备甚至手机 [2] Anthropic产品策略变化 - 公司改变以往专注重大版本更新的策略，转向更频繁推出渐进式更新，此次发布Claude Opus 4.1并计划未来几周推出更多更新 [3] - Claude Opus 4.1在代理任务、现实世界编码和推理方面升级，擅长处理复杂多步骤问题，定位为更有效的AI智能体 [1][3] - 在SWE-bench Verify测试中得分74.5%超过前代72.5%，Terminal-Bench、GPQA Diamond、MMMLU测试分别达43.3%、80.9%、89.5%均超前代 [4] - 用户反馈显示代码修改精准度和调试效率明显改善 [4] 谷歌世界模型进展 - 推出首个支持实时交互的通用世界模型Genie 3，被视为迈向AGI的关键垫脚石 [5] - 可生成多样化交互环境，模拟水、光等自然现象及生态系统，动画角色和复杂元素相互作用，画面一致性达几分钟 [5] - 相比Genie 2的8秒画面一致性，Genie 3能生成长达几分钟的720p画面，视觉记忆可追溯一分钟前 [5][6] - 演示显示可模拟摩托艇撞击效果、生成推进视角的教室场景等高度逼真交互 [6] - 仍存在动作空间有限、多智能体交互模拟困难、交互时长不足数小时等局限 [9] 行业技术趋势 - 大模型能力持续升级，通过开源端侧部署模型、推进智能体技术、实现世界模型交互等方式提升可用性 [9]

Claude Opus 4.1

Claude Opus 4.1

谁在拆 OpenAI 的围墙？

36氪· 2025-08-06 01:41

OpenAI战略转向开源 - OpenAI突然宣布开源两款新模型gpt-oss-120b和gpt-oss-20b 这是自GPT-2以来首次重新向开源社区开放模型权重 [1] - 公司过去几年一直是"闭源派"代表依靠GPT-3和GPT-4的技术优势建立商业壁垒几乎垄断大模型时代的入口和定价权 [1] - 此次开源采用Apache 2 0协议明确允许商用和二次开发直接对标Meta的Llama模型 [3] 开源策略的深层考量 - 公司保留核心技术护城河未开放GPT-4核心架构仅提供中等规模模型既不影响高端产品线又能吸引开发者 [3] - 底层代码修改受限训练数据优化策略和系统架构等关键要素仍由公司掌控 [3] - 通过部分开放换取生态主导权让开发者依赖其工具链同时通过闭源体系维持高利润业务 [4] 行业竞争格局变化 - 开源模型性能已逼近GPT-4 成本仅为1/20 采用宽松开源协议形成市场竞争压力 [2] - Anthropic采取相反策略发布闭源模型Claude 4 1 专注企业级安全和可靠性瞄准金融法律等高端客户 [5][6] - AI行业进入分层竞争时代 OpenAI双轨制与Anthropic专精路线形成差异化竞争 [7] 开发者生态影响 - 新模型支持本地部署和云端扩展兼容主流框架大幅降低智能体开发门槛 [8] - 独立开发者可在个人设备运行接近GPT-4能力的模型可能催生新一代AI应用创新 [8] - 开源生态正在消费端实现反超类似Linux Firefox Android等历史案例的开源成功路径 [10] 监管与风险对冲 - 美国自2023年加强AI监管开源模型因透明可审计的特性更易通过合规审查 [8] - 公司通过开源策略提前卡位为未来监管环境变化做好准备 [8] - 技术流动性和生态开放性成为行业新竞争维度 [10]

Artificial Intelligence

Artificial Intelligence

奥特曼深夜官宣：OpenAI重回开源，两大推理模型追平o4-mini，号称世界最强

36氪· 2025-08-06 00:31

OpenAI深夜扔出开源核弹，gpt-oss 20B和120B两款模型同时上线。它们不仅性能比肩o3-mini和o4-mini，而且还能在消费级显卡甚至手机上轻松运行。 GPT-2以来，奥特曼终于兑现了Open AI。他来了！他来了！就在今夜，奥特曼带着两款全新的开源模型走来了！正如几天前泄露的，它们分别是总参数1170亿，激活参数51亿的「gpt-oss-120b」和总参数210亿，激活参数36亿的「gpt-oss-20b」。终于，OpenAI再次回归开源。 gpt-oss-120b 在核心推理基准测试中，120B模型的表现与OpenAI o4-mini相当，并且能在单张80GB显存的GPU上高效运行（如H100）。 gpt-oss-20b适用于低延迟、本地或专业化场景在常用基准测试中，20B模型的表现与OpenAI o3-mini类似，并且能在仅有16GB显存的边缘设备上运行。除此之外，两款模型在工具使用、少样本函数调用、CoT推理以及HealthBench评测中也表现强劲，甚至比OpenAI o1和GPT-4o等专有模型还要更强。其他亮点如下：宽松的Apache 2.0许可证：可自由用于 ...

Artificial Intelligence

Artificial Intelligence

OpenAI发布2款开源模型，北大校友扛大旗

虎嗅· 2025-08-06 00:15

本文来自微信公众号：APPSO （ID：appsolution），作者：发现明日产品的，原文标题：《刚刚，OpenAI发布2款开源模型！手机笔记本也能跑，北大校友扛大旗》，题图来自：AI生成时隔五年之后，OpenAI刚刚正式发布两款开源权重语言模型——gpt-oss-120b和gpt-oss-20b，而上一次他们开源语言模型，还要追溯到2019年的GPT-2。 OpenAI是真open了。而今天AI圈也火药味十足，OpenAI开源gpt-oss、Anthropic推出Claude Opus 4.1（下文有详细报道）、Google DeepMind发布Genie 3，三大巨头不约而同在同一天放出王炸，上演了一出神仙打架。 OpenAI CEO Sam Altman（山姆·奥特曼）在社交媒体上的兴奋溢于言表："gpt-oss发布了！我们做了一个开放模型，性能达到o4-mini水平，并且能在高端笔记本上运行。为团队感到超级自豪，这是技术上的重大胜利。" 模型亮点概括如下： gpt-oss-120b：大型开放模型，适用于生产、通用、高推理需求的用例，可运行于单个H100 GPU（1170亿参数，激活参数为5 ...

Artificial Intelligence

Artificial Intelligence

OpenAI发布ChatGPT世代首个开源模型gpt-oss，4060Ti都能跑得动。

数字生命卡兹克· 2025-08-05 22:08

行业动态 - Google发布世界模型Genie 3 该模型引发行业高度关注被视为游戏和VR领域的重要突破[3] - Anthropic发布Claude Opus 4 1 在编程能力上持续进化被解读为针对OpenAI的竞争行为[5][7] OpenAI开源模型GPT-oss - 公司首次在ChatGPT时代发布开源模型包含120B和20B两个MoE架构版本[9][12][14] - 模型采用Apache 2 0许可允许自由使用 120B版本参数117B 激活参数5 1B 20B版本参数20 9B 激活参数3 6B 均支持128K上下文[14][15][16][17] - 原生支持4-bit量化技术 20B模型仅需12 8GB存储空间可在16GB显卡运行 120B模型可在80G单卡运行[18][20][25][26] - 采用MXFP4量化格式性能损失极小与英伟达NVFP4技术类似[24][27][29] 模型性能表现 - 在MMLU测试中 120B和20B版本分别获得90 0和85 3分接近OpenAI商业版本[32] - 在GPQA Diamond测试中分别获得80 1和71 5分在AIME数学竞赛中表现优异[32][38] - 在Codeforces编程测试中分别获得2622和2516分优于DeepSeek R1但逊于商业版本[32] - 在写作能力测试中 20B版本表现优于同尺寸开源模型但逊于商业大模型[67][69] 应用场景 - 提供在线试用平台gpt-oss com 并已接入OpenRouter API服务[39][40] - 支持本地部署可通过Ollama工具运行 20B版本响应速度极快[44][49][50][51] - 在代码生成和数学推理方面表现突出但存在一定幻觉问题[74][75] - 被视为改变开源社区格局的重要产品可能推动行业竞争格局变化[80][81]

Artificial Intelligence

Claude Opus 4.1

Artificial Intelligence

Claude Opus 4.1

六年来首次！OpenAI新模型开放权重，Altman称为"全球最佳开放模型"

华尔街见闻· 2025-08-05 20:05

公司动态 - OpenAI发布六年来首批开放权重模型gpt-oss-120b和gpt-oss-20b，这是自2019年GPT-2后首次开放模型权重[1] - 两款模型采用专家混合(MoE)架构，gpt-oss-120b总参数1170亿，每token激活5.1亿参数；gpt-oss-20b总参数210亿，每token激活3.6亿参数[5][6] - 模型支持128k上下文长度，gpt-oss-20b可在16GB内存设备运行，gpt-oss-120b需要约80GB内存[2][6] 技术性能 - gpt-oss-120b在竞赛编码、通用问题求解和工具调用方面超越o3-mini并匹敌o4-mini，在健康查询和竞赛数学方面甚至超过o4-mini[7] - gpt-oss-20b性能达到或超过o3-mini，在竞赛数学和健康领域表现更优[7][8] - 模型采用交替密集和局部带状稀疏注意力模式，支持本地推理无需联网[3][5] 战略合作 - 亚马逊首次在其Bedrock和SageMaker平台提供OpenAI模型[3] - 微软将为Windows设备提供GPU优化版gpt-oss-20b，支持通过VS Code工具包获取[4] - 公司与英伟达、AMD等芯片商合作确保跨平台兼容性，英伟达CEO称赞其开源创新[15] 安全措施 - 模型经过严格安全测试，预训练时过滤化学、生物、放射性和核相关有害数据[11] - 开展50万美元奖金红队挑战赛，鼓励发现安全问题[12] - 采用Apache 2.0许可免费提供，可通过Hugging Face和GitHub下载[11] 市场影响 - 发布被视为对Meta、Mistral AI和中国DeepSeek等竞争对手的回应[1] - 标志公司战略转向，此前多次推迟开放权重模型发布[3] - 开放权重形态介于开源闭源之间，允许用户查看修改模型权重[3]

开放权重模型

开放权重模型

中国AI猛追美国

日经中文网· 2025-08-05 02:43

中国AI行业发展现状 - 中国国内完成备案的AI模型数量半年增长45%，累计达439款 [4] - 世界人工智能大会参展企业数量同比增加60%，展示40多款AI模型和60多款机器人 [4] - 中国生成式AI性能与美国差距从2024年1月的9.26%缩小至2025年2月的1.7% [5] 企业动态与技术进展 - 阿里巴巴展示开源AI模型"Qwen2.5-Max"，在日语测试中全球排名第12位，超越Meta同类产品 [7] - 京东集团宣布开始提供开源型AI智能体 [7] - DeepSeek开发低成本基础模型引发全球关注，推动中国企业加速开源模型公开 [7] 国际竞争格局 - 美国发布《AI行动计划》国家战略，试图通过技术优势遏制中国AI发展 [9] - 中国在半导体领域推进国产化，但尖端芯片仍依赖美国产品 [9] - 全球50%的AI研究人员为中国人，中国在人才储备和生态系统活跃度上具有优势 [7] 跨国合作与影响 - 日本国立信息学研究所采用阿里巴巴Qwen模型开发本土AI"LLM-jp-3.1" [8] - 中国计划向新兴市场推广AI模型，中美未来将在服务出口领域展开竞争 [9] - 中国国务院总理呼吁成立AI合作组织，解决芯片短缺和人才交流受限问题 [4]

对话PPIO姚欣：AI大模型赛道加速内卷，但合理盈利路径仍需探索

钛媒体APP· 2025-08-05 02:23

公司业务与定位 - PPIO是一家独立分布式云计算服务商专注于边缘云计算和AI云计算服务在中国独立边缘云计算服务商中排名第一市场份额为4.1% [4][14] - 公司运营中国最大的算力网络按计算节点数计在中国边缘云计算服务提供商中排名第七 [4] - PPIO在IaaS PaaS MaaS三层都具备相应技术能力为国内外领先科技公司提供服务包括中国前十大互联网公司的大部分 [14] - 公司正式发布国内首个Agentic AI基础设施服务平台包括兼容E2B接口的Agent沙箱和模型服务支持百款主流开源与定制AI模型的快速接入 [5] 技术优势与创新 - 对DeepSeek-R1模型进行优化采用PD分离等创新分布式计算技术使吞吐量提高10倍以上理论运营成本降低高达90% [4] - 通过算子融合低精度量化及投机采样等技术将模型输出效率提高7倍以上理论运营成本降低85.7% [4] - 具备很强的调度能力融合能力模型优化底层算子等技术能力能提升GPU资源利用率 [14] - 研发国内首款兼容E2B接口的Agent沙箱专为Agent执行任务设计在云端环境运行 [5] 市场表现与增长 - AI云计算服务增长迅速日均token消耗量从2024年12月的271亿次增至2025年6月的2000亿次在中国独立AI云计算服务供应商中位列前两名 [5] - 公司于2025年6月正式向港交所提交上市招股书启动IPO上市之路 [5] 行业观点与趋势 - AI Infra基础设施领域是非常低毛利海量规模长周期的市场类比水电气煤等公共基础设施 [6][17] - 未来AI算力需求将从训练转向推理从中心化架构转向分布式架构推理计算卡将百花齐放 [7][18] - 推理算力占比将达到95% 训练只占5% 大量数据中心需要分布式以及海量的推理优化 [22] - 开源模型对于AI行业发展更有利能让AI Infra公司有更多发展机遇 [6][10] 算力架构发展 - 中国AI算力底层做算力网络东数西算在算力调度和整合方面具有优势类似高铁网和电力调度网 [22] - 美国算力底层在做星际之门堆20万张卡但面临散热能耗电网冲击等挑战 [22] - 训推一定会分离训练集群和推理集群将是两个集群目前训推一体是为了训练削峰填谷 [22] 应用场景拓展 - 边缘云和AI推理云业务将融合满足云边端不同需求特别是机器人自动驾驶等对低时延有要求的场景 [25][26] - 机器人自动驾驶的实时计算需要毫秒级处理速度只能使用本地化算力 [24] - 复杂任务如任务拆解推理形成代码等需要至少30B参数规模且Agent会运行在云端 [25] 硬件与软件协同 - 国产算力卡在推理时代迎来发展机会特别是加了PD分离架构之后 [20] - 硬件软件快速迭代良性结合推动AI时代加速端到端垂直整合能力越来越重要 [20] - 多卡融合多卡兼容解决方案成为普遍趋势以应对AI芯片卡脖子风险 [21]

分布式算力

Cloud Computing

分布式算力

Cloud Computing

大模型年中报告：Anthropic 市场份额超 OpenAI，开源模型企业采用率下降

Founder Park· 2025-08-04 13:38

基础大模型发展趋势 - 基础大模型正成为生成式AI核心引擎并重塑计算未来其能力与成本控制的演进将推动系统应用及产业格局变革 [2] - 模型API支出在6个月内从35亿美元增长至84亿美元企业重心从训练微调转向模型推理标志阶段性转折 [2] - 代码生成成为首个大规模爆发的AI应用场景基础模型能力升级路径新增"带验证器的强化学习"(RLHF with verifiers) [2] 市场竞争格局变化 - Anthropic以32%企业使用率超越OpenAI(25%)和Google(20%) 成为市场新领跑者 Meta Llama占9% DeepSeek仅1% [9] - Anthropic崛起始于2024年6月Claude Sonnet 3 5发布 2025年系列版本(Claude Sonnet 3 7/4 Opus 4 Claude Code)巩固领先地位 [12] - 企业投入集中流向少数高性能闭源模型开源采用趋势因前沿突破放缓而减弱 [3] Anthropic成功驱动因素 - 代码生成领域占据42%市场份额(OpenAI为21%) 催生19亿美元生态系统及AI IDE 应用构建工具等新形态产品 [13][14] - 采用带可验证奖励的强化学习(RLVR)突破数据瓶颈成为提升模型可靠性与实际能力的关键路径 [15] - 率先实现Agent范式突破通过多轮自我优化及工具调用提升模型执行力 2025年被称为"Agent之年" [16] 开源模型发展现状 - 开源模型运行任务占比从19%降至13% Meta Llama仍领先但Llama 4表现未达预期 [17] - 中国公司贡献突出开源模型(DeepSeek 字节跳动阿里巴巴等) 但性能落后前沿闭源模型9-12个月叠加部署复杂度导致份额停滞 [17][20] - 开源吸引力在于定制化成本优势及私有化部署但初创企业生产负载正加速转向闭源 [20] 企业模型选择行为 - 66%开发者选择原供应商升级仅11%切换供应商性能(非价格)是核心决策因素 [24][27] - 性能优先逻辑下旧模型即使降价十倍也无法挽回用户 Claude 4发布一个月内即抢占45%用户 [27][30] - AI支出从训练转向推理初创企业推理任务占比从48%升至74% 近半数企业主要计算任务由推理驱动 [31]

大语言模型

带验证器的强化学习

大语言模型

带验证器的强化学习