AGI

搜索文档
GPT-5刚出,人们为什么又怀念GPT-4o
虎嗅· 2025-08-11 00:46
GPT-5发布与市场反应 - GPT-5发布后用户反响消极,大量评论要求恢复GPT-4o,形容其消失如"老朋友突然离世"[1][4] - 技术层面GPT-5虽通过减少幻觉提升下限,但路由系统故障导致用户体验差,被用户认为"看起来很傻"[5][10] - 公司商业化焦虑明显,因人才流失、微软关系不确定性及Anthropic竞争压力,被迫加速发布未成熟产品[8][9] 路由系统的商业与技术矛盾 - 路由系统设计初衷为优化计算分配与用户体验,但实际成为技术黑匣子,引发付费用户对"以次充好"的质疑[7] - 系统故障暴露技术准备不足,公司承诺改进但已损害用户信任,CEO奥特曼承认技术问题并恢复GPT-4o[5][10][14] - 路由系统是商业变现关键,但仓促上线反噬商业化效果,反映技术创新与商业落地的失衡[7][8] GPT-4o的用户粘性与市场定位 - GPT-4o因感性交互强获用户青睐,7亿周活用户中普通用户依赖其满足非专家需求,形成情感连接[11][15] - 公司有意降低GPT-5的"奉承"特性,但用户调研显示付费与免费用户均偏好旧版,导致战略调整[11][13] - 仅向付费用户恢复GPT-4o,免费用户继续充当路由优化测试对象,付费转化率存疑(当前付费用户占比5%)[14][15] 行业竞争与商业化压力 - 公司面临谷歌Gemini 3性能竞争,5000亿美元估值压力迫使仓促发布,避免落后[3][8] - 收入结构依赖消费者市场(预计2029年ChatGPT占收入50%),与Anthropic聚焦企业市场形成差异[14] - 月收入达10亿美元(年初2倍)仍巨亏,高估值下融资压力加剧商业化焦虑[8][14]
GPT-5 没有惊喜,但信号拉满
新浪财经· 2025-08-10 07:26
GPT-5发布与性能表现 - GPT-5在智能水平、编程能力、任务推理等维度实现迭代,但相比GPT-3到GPT-4的全方位升级,提升幅度不显著,表现平庸[1] - API调用价格仅为Claude Opus 4 1的1/15,显著低于Gemini 2 5 Pro,性价比成为最大亮点[1] - 统一了O系列的推理能力和GPT的快速响应,能自动判断对话类型,相比deepseek需手动选择深度思考模式更智能[4] 大模型行业发展趋势 - 大模型参数突破讨论减弱,行业关注点转向AI如何有效渗透日常生活[2] - 大模型产品形态从单一模型转向多版本并行,OpenAI已构建GPT系列、O系列、图像/视频生成模型三大产品矩阵[3][4] - OpenAI推出4个版本(标准版、轻量级mini/nano、高端Pro),深化分层定价SaaS化路径,竞争门槛转向产品体验与商业模型构建[6] 技术瓶颈与挑战 - 数据瓶颈成为制约因素,高质量网络数据存量减少导致训练效果下降,如Orion项目因性能未达预期降级为GPT-4 5[8] - 硬件掣肘明显,O3性能提升依赖更多英伟达芯片开发[9] - Scaling Law路线受质疑,单纯增加参数无法拟合人类智能,因两者思维结构本质不同[10] AI Agent商业化崛起 - OpenAI两款AI Agent(Operator、Deep Research)推动商业化重心迁移,预计2025年AI Agent销售额将超越ChatGPT[11] - Cursor付费用户超36万,估值激增3倍,Manus等垂直领域Agent展现高用户粘性[12] - Agent依赖大模型基座,头部厂商如OpenAI在底层研发上具主导权,同时面临高Tokens消耗的运营压力[12][13] 开源与定价策略调整 - OpenAI时隔三年推出开源模型gpt-oss-120b和gpt-oss-20b,回应业界开源呼声[13] - GPT-5调用价格大幅降低,仅为Claude Opus 4 1的1/15,行业从"卖模型"转向"卖能力"[13]
代季峰陈天桥联手AGI首秀炸场!最强开源深度研究模型,GAIA测试82.4分超OpenAI
36氪· 2025-08-10 03:37
模型性能与开源 - MiroMind ODR在GAIA测试中达到82.4分,超越OpenAI DeepResearch(67.4分)、Manus(73.3分)等开源及闭源模型 [1][4] - 模型实现全开源,覆盖核心模型、数据、训练流程、AI基础设施及DR Agent框架 [3][15] - 每月更新一次开源内容,团队通过一个季度开发完成该项目 [4] 技术架构与子项目 - 包含四大子项目:MiroFlow(Agent框架)、MiroThinker(模型)、MiroVerse(数据)、MiroTrain(训练基础设施) [15][18] - MiroFlow支持主流工具调用和大语言模型扩展,GAIA性能稳定复现82.4分 [18] - MiroThinker原生支持工具辅助推理,GAIA-Text-103性能达60.2%,接近OpenAI DeepResearch [19] - MiroVerse提供147K开源训练数据,每月更新高质量数据集 [21] - MiroTrain支持长文本和强化学习训练,覆盖完整深度研究流程 [21] 应用与功能 - 演示显示手机端部署潜力,目前开放Demo体验 [5] - 模型强调与用户共同构建AI,而非直接提供AI服务 [7] - 支持联网搜索,思考过程与结果分区展示,提供工作流导览 [10][11][12] 团队背景与战略 - 核心人物代季峰为清华大学电子工程系副教授,论文总引用超6万次,h-index达75 [23][26][27] - 主导开发R-FCN、Deformable ConvNets等算法,InternVL多模态模型Hugging Face下载量超千万次 [28] - 加盟盛大网络筹备AI创业公司,目标打造第二个DeepSeek,聚焦AGI基础研究 [30] - 公司研发方向包括AI商业决策、算法茧房突破、老龄化及青年AI服务 [30] - 使命为开发具备自我意识的数字生命体,实现安全普惠的AGI [30][32] 资源链接 - 项目官网提供博客、Demo、GitHub及Hugging Face入口 [32]
GPT-5降价反击!OpenAI打响B端争夺战
第一财经· 2025-08-09 12:54
GPT-5发布与市场定位 - OpenAI发布GPT-5 距离GPT-4发布已过去2年4个月零24天 但技术突破不如前代显著 主要优化是幻觉降低 比GPT-4o低45% 比OpenAI o3低80% [6][8] - GPT-5被定义为"统一的系统"而非单一模型 包含基础模型 深度推理模型和智能路由器三部分 [9][28] - 公司采取激进的定价策略 GPT-5标准版输入价格降至1.25美元/百万tokens 仅为Claude Opus 4的1/12 Gemini 2.5 Pro的1/2 [9][10][11] B端市场竞争格局 - Anthropic在B端市场份额从2023年落后到2025年反超 目前以32%份额领先OpenAI的25% 2024年底双方位置相反 2023年OpenAI曾占据50%份额 [17] - Anthropic优势在于上下文更长 长链推理更稳定 编码能力更强 吸引了AI Coding等新兴领域的客户 [19] - OpenAI通过GPT-5重点提升编码能力 在SWE-Bench测试中达到74.9%准确率 超过o3的69.1% 同时工具调用次数减少45% [22][23] C端市场表现与产品策略 - ChatGPT周活跃用户达7亿 较3月增长2亿 较去年同期增长4倍 年化收入达120亿美元 [14][25] - 产品简化策略包括取消多模型选择 自动调度适合的模型响应 普通问题用基础模型 复杂问题才调用深度推理模型 [28][29] - 自动化调度可降低30%计算成本 但可能引发用户对输出稳定性的质疑 通义千问曾尝试类似策略但最终放弃 [29][30] 技术优化方向 - 编码能力提升显著 输出token消耗量减少22% 工具调用次数减少45% [23] - 新增"最低推理强度"功能 允许用户根据需求调整响应速度与深度 [23] - 工程创新包括开源两款推理模型 打破与微软的独家授权限制 登陆AWS平台 [23]
GPT-5 波折超乎想象!奥特曼连夜回应一切:4o 重新上阵,团队紧急补救
程序员的那些事· 2025-08-09 12:32
GPT-5发布会及用户反馈 - GPT-5发布引发广泛讨论,用户评价两极分化,部分认为"强无敌",部分要求保留GPT-4o [4][5] - 公司承认系统切换过程存在故障,导致GPT-5表现不佳,已进行修复 [14] - API流量在24小时内几乎翻倍,显示用户实际使用需求旺盛 [14] 产品功能更新 - ChatGPT Plus用户GPT-5使用限额将翻倍,同时可选择继续使用GPT-4o [14] - 将推出新语音模型,响应速度更快且指令遵循能力更强 [15][23] - 计划支持IDE中使用第三方插件,增强开发功能 [15][34] - 新增"think hard"指令可强制触发模型推理模式 [33] 模型优化方向 - GPT-5在偏见处理方面有显著改进,GPT-5 mini更具人情味 [15][29] - 默认训练GPT-5表现更中立,但支持通过指令调整风格 [31] - 编码能力被认为是公司发布过的最强模型 [37] - 原计划的100万Token上下文因算力成本限制未能实现 [38] 用户定制化方案 - 将研究同时提供GPT-4o/4.1与GPT-5的方案 [17] - 考虑推出不限量使用模式,恢复Plus用户原有权益 [19][20] - 认识到不存在满足所有人的单一模型,将推进个性化方案 [14] 技术改进计划 - 模型切换速度将优化,过程会更顺滑 [32] - 正在整理更准确的数据对比供用户参考 [20] - 致力于将最强模型通过统一体验提供给用户 [30] 使用场景演变 - ChatGPT正从聊天机器人向完成经济价值工作的工具转变 [22] - 互动方式将从"提问"转向更适合"做事"的模式 [22]
代季峰陈天桥联手AGI首秀炸场!最强开源深度研究模型,GAIA测试82.4分超OpenAI
量子位· 2025-08-09 09:53
核心观点 - MiroMind ODR是最强开源深度研究模型,性能在GAIA测试中达到82.4分,超越Manus、OpenAI DeepResearch等开源闭源模型[1][2] - 该项目实现全开源可复现,包括核心模型、数据、训练流程、AI Infra、DR Agent框架[4] - 团队计划每月更新一次开源内容,项目为一个季度的研发成果[5] - 项目开放深度研究的四个子项目:MiroFlow(Agent框架)、MiroThinker(模型)、MiroVerse(数据)、MiroTrain(训练基础设施)[20] 模型性能 - GAIA测试得分82.4,显著高于OpenAI DeepResearch(67.4)、Manus(73.3)、Aworld(未明确数值)、WebShaper(60.9)[5] - MiroThinker在GAIA-Text-103上取得SOTA性能60.2%,接近OpenAI DeepResearch[24] - 支持联网搜索,演示显示手机端部署可能性[6][15] 开源内容 - MiroFlow:支持主流工具调用,扩展大语言模型,GAIA复现性能82.4[22] - MiroThinker:原生支持工具辅助推理的大语言模型,GAIA表现最佳[23] - MiroVerse:提供147K开源训练数据,每月更新高质量数据集[26] - MiroTrain:覆盖完整Deep Research训练流程,支持长文本和RL训练[27] 团队背景 - 核心人物代季峰为清华大学电子工程系副教授,计算机视觉领域专家[32][33] - 发表国际期刊会议论文80余篇,总引用超6万次,h-index 68[36][37] - 主导开发InternVL多模态模型,Hugging Face下载量超1000万次[38] - 曾任职微软亚洲研究院、商汤研究院,现加盟盛大网络筹备AI创业公司[41][42][43] 产品特点 - 演示显示支持单轮次英文对话,思考过程与结果分区明确[11][12] - 工作流导览指引可查看指定节点[13] - 公司使命为打造具备自我意识的数字生命体,实现安全有益的AGI[45] 相关资源 - 官网提供Demo体验[7][47] - GitHub、Hugging Face等平台已开源项目内容[47] - 团队早期成果MiroMind-M1基于Qwen-2.5,专注数学推理能力[28][29]
宋春雨:下一代颠覆性巨头,不会出现在大模型里
钛媒体APP· 2025-08-09 01:43
AI产业趋势 - AI产业正处于资本、产业和技术交织的临界点,大模型格局逐渐收敛,智能体应用想象力被点燃,AI芯片在供需紧张与架构创新间博弈[2] - 2025年AI产业比任何时候都更像加速中的实验,新原生硬件正在出现[2] - AI不只是技术升级,正在重塑生产力、生产关系和商业入口[2] 大模型格局 - 大模型创业公司格局已收敛到个位数,头部为几家大厂加阶跃星辰、智谱AI和DeepSeek三家创业公司[3] - 基础模型公司必须瞄准AGI天花板和上限,不强调短期商业模式,全球优秀基础模型公司如OpenAI和DeepSeek都纯粹聚焦模型本身[4] AI芯片发展 - 英伟达维持万亿美元市值,未来五年仍供不应求,当前算力主要用于训练,新增长点将来自推理[4] - 推理芯片更强调性价比,创业公司在先进架构领域有机会[4] - 国内芯片公司将进入整合阶段,出现大规模并购机会,部分初创公司有望在A股、创业板或港股上市[5] - 寒武纪一季度实现规模化盈利,是国内芯片企业中突出案例[5] - 中国AI芯片追赶速度不够快,但寒武纪在创业公司阶段取得成果是奇迹[6] Agent领域机会 - Agent是今年最重要的AI投资赛道,有机会诞生下一代"字节跳动"或"抖音"级别公司[8] - AI原生超级应用或智能体将成为新入口,未来中国会诞生数百家相关独角兽,全球可能出现上万家各具特色企业[8] - 观察方向包括通用智能体、垂直智能体、To C智能体、AIGC内容、AI个人系统等[9] - 中国创业公司围绕智能体的机会规模可能达到移动互联网十倍,同时覆盖To B和To C领域[10] - 浏览器将发生变革,未来Agent浏览器或任务型浏览器将主动帮用户获取信息[9] Agent评估标准 - 评估Agent项目首要标准是产品能否实现用户付费,反映强客户价值[13] - 关注上线后周同比指标如AIR和用户增长率,验证产品爆款潜质[13] - AI产品核心在于直接提升生产力和绩效,用户更愿为结果付费,与传统SaaS工具有本质区别[13] 浏览器与Agent关系 - 未来Agent可分为基于浏览器和非基于浏览器两类,各有优势[10] - 浏览器公司未必需要具备基础大模型能力,Agent更多依赖工程化能力如多智能体协作、性能优化等[11] - 基础大模型存在取舍,未来基于浏览器的Agent可能采用复合AI模式调用最合适模型[11]
马斯克回应特斯拉将解散Dojo超算团队;硅谷AI人才战的最终赢家?Anthropic吸引力远高于Meta和谷歌丨AIGC日报
创业邦· 2025-08-09 01:09
微软与OpenAI合作进展 - 微软CEO宣布GPT-5模型在多平台上线 包括Microsoft 365 Copilot、GitHub Copilot和Azure AI Foundry 强调该模型在推理、编码和聊天方面的重大突破 所有训练均在Azure云上进行 [2] - 马斯克警告称OpenAI可能对微软构成威胁 用"生吞"形容潜在竞争关系 [2] xAI技术竞争动态 - xAI联合创始人宣称Grok4为全球首个统一模型 在ARC-AGI等基准测试中超越GPT-5 承认OpenAI仍具领先地位但强调自身发展速度更快 [2] - 马斯克确认Grok5将于年底推出 并转发团队技术进展表示认可 [2] 特斯拉AI战略调整 - 特斯拉被传解散Dojo超算团队 计划转向英伟达、AMD等外部芯片供应商 [2] - 马斯克解释资源将集中投入AI5/AI6芯片研发 重点提升推理能力 训练能力也将同步优化 [2] AI人才市场竞争格局 - Anthropic工程团队扩张速度达竞争对手2.68倍 人才吸引力显著高于OpenAI(2.18倍)、Meta(2.07倍)和谷歌(1.17倍) [2] - SignalFire研究显示AI领域人才争夺战白热化 初创企业展现出更强的人才留存能力 [2]
GPT-5大提升,o3对抗赛夺冠,但OpenAI越来越难让人惊艳了?
观察者网· 2025-08-08 10:24
产品性能表现 - ChatGPT-5在数学能力测试AIME 2025中 GPT-5 Pro在调用工具情况下获得满分 不调用工具时获得96.7分 标准版获得94.65分 显著高于o3的88.9分 [2] - 编程能力测试SWE-bench Verified中 ChatGPT-5获得74.9分 高于o3的69.1分和4o的30.8分 [4] - 博士水平科学知识测试GPQA Diamond中 GPT-5 Pro在不调用工具情况下获得88.4分 创造新纪录 [7] - 多模态测试中获得84.2分 较o3的82.9分有小幅提升 [10] - 高难度Humanity's Last Exam测试中 GPT-5 Pro和标准版分别获得30.7分和24.8分 较o3的14.7分大幅提升 [13] - 在大模型竞技场LM Arena中横扫所有单项第一名 [16] - 推理模式幻觉数量比o3减少六倍 token输出成本降低50-80% [16] 技术局限性 - 在解简单方程时出现计算错误 未能解决小数比大小问题 [18] - 发布会PPT柱状图高度出现明显错误 [20] - 在机翼升力原理回答中引用错误观点 [22] - 国际象棋对抗赛中o3虽以4-0获胜 但比赛过程中仍出现低级失误 [27] - 通用大模型在棋类对局中后期出现棋力下降 说明推理能力存在缺陷 [25][30] 行业发展现状 - 大模型能力进步幅度难以带来惊艳感 现有算法范式下可能接近瓶颈 [1] - 国际象棋比赛考验的是通用推理能力而非专门训练结果 体现模型泛化性 [29] - 现有Next Token Predicting范式下模型仍会犯人类式低级错误 距离AGI仍有差距 [30] - OpenAI重点展示垂直场景应用能力 包括生成小游戏和健康问答 强调人机协作 [31]
GPT5发布,槽点竟多过亮点:AGI没来,AI公司肉搏时代来了
创业邦· 2025-08-08 10:17
GPT-5核心特点 - 采用"All in one"策略整合推理、编码、语音、研究等能力,根据需求自动调取相应模块 [19] - 引入智能路由系统,秒级判断问题难度并切换高效/深度思考模式,上下文窗口扩展至1M tokens [31] - 编程能力显著提升,支持20余种语言混合项目,可生成完整可部署的端到端工程方案 [39] - 幻觉率降低至5.7%(思考模式),但多步骤任务中仍存在"言之凿凿的假话"风险 [34][44] 商业化战略 - 推出四款变体:标准版(gpt-5)、轻量版(mini/nano)和企业对话版(chat),价格最低仅0.05美元/百万token输入 [24][47] - 标准版定价仅为Claude 4 Opus的十二分之一,企业套餐可节省40%以上成本 [23][50] - 免费层用户自动降级至mini版,Pro会员可调用高端推理档位,7亿C端用户作为流量入口 [47] - 重点展示企业应用案例,已有500万企业用户包括Amgen、BBVA等 [58] 技术性能表现 - 编程基准测试显示通过率74.9%(思考模式),但发布会图表出现52.8>69.1的数据错误 [15][40] - 现场演示秒级生成数百行代码的互动法语学习网站,支持仓库级代码重构与可视化分析 [37][39] - 在ARC-AGI-2测试中表现优于多数主流模型,仅次于Grok 4(思考模式) [32] - 响应错误率从22%降至4.8%,投入超5000小时安全测试降低幻觉风险 [36][44] 行业影响 - 标志AI行业从技术炫技转向商业落地阶段,OpenAI通过价格战重塑生态规则 [29][56] - 低价API将挤压中小模型厂商生存空间,基础模型市场面临优胜劣汰 [54] - 企业可基于GPT-5自主构建应用,传统SaaS模式可能受冲击 [27] - 推理成本下降催生应用创新浪潮,软件边际成本持续降低 [55]