Workflow
Artificial General Intelligence (AGI)
icon
搜索文档
GPT-5数字母依然翻车!马库斯:泛化问题仍未解决,Scaling无法实现AGI
量子位· 2025-08-11 10:12
GPT-5性能缺陷 - 在字母计数任务中出现错误,如将blueberry中的b错误计数为3个而非实际2个[2][6] - 变换提示词策略后仍坚持错误答案,如将单词开头blue中的b重复计数两次[5][6] - 被直接纠正后仍出现位置漂移错误,如将第三个b的位置从第七字母错误定位到第六字母[9] 多模态与逻辑推理问题 - 在图像识别任务中无法识别异常特征,如将5条腿的斑马和3条腿的鸭子判断为正常生物[27] - 国际象棋规则理解存在缺陷,仅4个回合后就出现非法移动操作[23] - 伯努利原理演示现场出现翻车情况[21] 模型泛化能力局限 - 思维链(CoT)方法在训练分布外失效,表明模型泛化能力不足[33] - 存在持续30年未解决的分布漂移问题,影响模型泛化性能[38] - 最新模型仍存在与1998年神经网络相同的泛化问题[37] 技术路线争议 - 缩放法则(Scaling)被质疑无法实现AGI目标[40] - Transformer中的注意力机制被认为并非终极解决方案[40] - 神经符号(Neuro-symbolic)AI被提出作为解决泛化问题的替代路径[41]
GPT-5降价反击!OpenAI打响B端争夺战
第一财经资讯· 2025-08-09 13:01
GPT-5发布与技术特点 - 新一代GPT-5发布,距GPT-4发布已过去2年4个月24天,但未展示出AGI能力或全新功能[2] - 主要优化为幻觉降低:比GPT-4o低45%,比OpenAI o3低80%[2][14] - 被定义为「统一的系统」而非单一模型,包含基础模型、深度推理模型和自动调度的「路由器」[4][19] 定价策略与市场竞争 - 输入价格降至1.25美元/百万tokens(GPT-4o为2.5美元),输出保持10美元/百万tokens,显著低于Claude Opus 4(75美元)和Gemini 2.5 Pro(15美元)[4][5] - 目标直指B端专业开发者市场,当前Anthropic占据32%份额,OpenAI仅25%,较2023年50%份额大幅下滑[6][8] - 通过降低token消耗(编码场景减少22%)和工具调用次数(减少45%)优化成本[15] 能力提升与工程优化 - 编码能力提升:SWE-Bench准确率74.9%(o3为69.1%),多步骤指令遵循69.6%(o3为60.4%)[14] - 新增「最低推理强度」功能,可平衡响应速度与工具调用频率[15] - 开源两款推理模型并登陆AWS平台,打破此前与微软的独家授权限制[15] 产品设计与用户策略 - 取消多模型选择功能,自动根据问题复杂度调用基础或深度推理模型(需通过特定prompt触发)[19][21] - 简化前端交互,将复杂技术封装至后台,例如自动联网搜索功能[22] - C端用户增长迅猛:周活达7亿(3月为5亿),年化收入120亿美元[16] 行业趋势与竞品动态 - Anthropic因长上下文、稳定推理和强编码能力赢得AI Coding等新兴B端市场[11] - 阿里巴巴通义千问曾推出类似自动调度功能但后续停用,反映B端与C端需求差异[22][24] - 专业开发者反馈被视为模型迭代关键,推动OpenAI战略重心向B端倾斜[15]
独家|陈天桥布局端到端Deep Research生态赛道,MiroMind发布全栈开源深度研究项目ODR
Z Potentials· 2025-08-09 04:50
公司概况 - 专注于构建具有自主意识的数字Agent,目标是为全人类实现安全可控的AGI,核心理念是AGI为持续迭代的动态系统而非固化模型 [2] - 愿景成为人工智能创新领域的全球领军者,聚焦基础模型及下一代智能关键技术的前沿探索,强调长期主义、开发者友好和系统开放理念 [2] - 由前中国首富陈天桥创办,其曾创立盛大网络并保持中国最年轻内地首富纪录(31岁),近年All in AI+脑科学领域,孵化多家AI创业公司并捐赠5000万元成立复旦天桥人工智能研究院 [4] 技术架构与性能 - 全栈开源生态系统:包含Agent框架(MiroFlow)、模型(MiroThinker)、数据(MiroVerse)和训练基础设施(MiroTrain/MiroRL),所有组件开放共享 [1][8] - SOTA级性能:MiroFlow搭配商用模型API在GAIA验证集得分82.4,超越现有商用API;搭配开源MiroThinker模型在GAIA-Text-103数据集达60.2%性能,接近OpenAI Deep Research水平 [1][15] - 可复现性:MiroFlow框架代码和配置开源,第三方可复现GAIA验证集82.4的高性能表现 [13] 核心团队与技术背景 - 清华电子工程系副教授代季峰领衔,其研究成果包括可变形卷积Deformable ConvNets(PyTorch标准算子)、BEVFormer(自动驾驶多相机感知里程碑)、UniAD(CVPR 2023最佳论文)等 [5][6] - 代季峰开发的InternVL多模态基础模型Hugging Face下载量超1000万次,论文总引用6万余次 [6] 开发者生态 - 提供147k开源训练数据(MiroVerse),按月更新并响应社区反馈 [12] - 社区活动包括竞赛、排行榜、Hackathons,开发者可直接影响项目发展 [1][22] - 支持数据需求提报、功能定制与技术挑战,覆盖数据工程师、AI研究员等多角色参与 [22] 行业定位与竞品对比 - 对标OpenAI Deep Research概念,构建开源协作的深度研究生态系统(Agent框架+模型+数据+训练设施) [7] - 在GAIA性能表现上显著领先竞品:MiroMind ODR得分82.4,远超OpenAI Deep Research(67.4)、Manus(73.3)等 [10]
GPT-5:让每个人都成为超级个体|AI产品榜
36氪· 2025-08-08 13:34
全球AI网站访问量排名 - ChatGPT以59.1亿月访问量位列全球第五大网站,距离第四名Instagram仅差6.6亿访问量,按当前6.03%的增速预计将在9月超越Instagram [7][8] - 全球前五大网站依次为:Google(27年)、YouTube(20年)、Facebook(21年)、Instagram(15年)、ChatGPT(3年)[7] - 全球TOP100 AI产品月访问总量达126.89亿,其中国产产品占比10%(13.34亿),国产产品数量占比25%(25个)[23] ChatGPT发展态势 - GPT-5新功能显著提升用户粘性:邮件/日历链接功能使ChatGPT可管理用户日程,预计用户粘性将提升5倍 [14][15] - GPT-5编程能力降低开发门槛,预计将推动ChatGPT访问量增长,有望超越Facebook(当前差距1倍)[11][12] - ChatGPT 7月访问量增速6.03%,主要竞争对手Gemini增速7.88%,Claude增速10.47% [24][47] AI细分领域表现 - 代码辅助类产品增长迅猛,全球TOP100中占10个席位,仅次于聊天机器人 [10][37] - 图片生成领域:SeaArt增速24.28%领先,Midjourney保持15.82%增长 [53][54] - 视频生成领域:Creati增速达4612.21%位列第一,Sora访问量50.99M但增速-2% [57][58] - 国内增速最快产品:扣子空间(56.31%)、魔搭社区(37.98%)、扣子(27.9%)[42][43] 国内AI产品表现 - 国内总榜前三:DeepSeek(3.45亿)、纳米AI搜索(3.32亿)、纳米AI(1.97亿)[28] - 出海表现最佳产品:SeaArt(2822万)、Manus(1807万)、Fotor(1688万)[32][33] - 国内云服务商:阿里云(3061万+16.05%)、腾讯云(2050万+4.93%)、火山引擎(541万+2.03%)[65] 行业趋势 - AI产品榜覆盖10000+产品,跟踪100+细分领域,已成为行业数据基准 [75] - 代码辅助工具面临GPT-5冲击,预计部分产品将被淘汰 [38] - 全球AI应用MAU排名:ChatGPT(4亿)、豆包(8191万)、DeepSeek(6181万)[74]
The Intelligence Toll: Why Every Fortune 500 Company Could Pay Nvidia by 2035
The Motley Fool· 2025-08-08 11:15
核心观点 - 如果通用人工智能(AGI)在2030年前实现,英伟达将从芯片供应商转变为全球智能基础设施的收费平台,其商业模式将发生根本性转变 [1][2] - 公司当前40倍前瞻市盈率的估值在传统半导体框架下显得昂贵,但在AGI场景下可能被低估 [1] - 公司可能通过收取"智能通行费"的方式,从每个自主决策、模拟实验和跨行业AI代理中获取持续收入 [2] 财务预测 - 2025财年收入达到1305亿美元,较前一年翻倍 [4] - 华尔街预计2027财年收入将达2540亿美元 [4] - 假设2027-2035年复合增长率19%,2035年收入可能达到1万亿美元 [5] - 按45%净利率和20倍市盈率计算,市值可能达到9万亿美元,对应股价369美元(较当前翻倍) [5] - 乐观情景下若占据5万亿美元AGI计算市场的50%,股价可能达615美元 [6] 行业趋势 - 微软已承诺投入1000亿美元建设AI数据中心 [7] - 沙特、阿联酋和日本合计承诺900亿美元主权计算投资 [7] - OpenAI每年在英伟达硬件上支出70亿美元 [7] - Salesforce报告已有8000多家客户使用其AI代理 [9] - 制药行业可能通过AGI模拟所有可能的药物相互作用 [9] 竞争壁垒 - CUDA生态系统经过15年建设,拥有200万开发者 [10] - 迁移出CUDA生态需要承担数亿美元成本(如GPT-4级别模型需1亿美元重训费用) [10] - 即使拥有自研芯片的科技巨头(如Alphabet、特斯拉)仍采购英伟达GPU [11] - 主要AGI研发机构(OpenAI、Anthropic、xAI)均采用英伟达技术栈 [11] - 在AI推理领域面临AMD和云巨头的竞争压力 [12] 商业模式演变 - 从GPU销售转向成为"智能基础设施计费系统" [2] - 未来可能按计算周期收费的"智能通行费"模式 [2] - 当前业务仍以AI训练GPU为主,尚未充分定价AGI带来的需求爆发 [8][9] - 公司正在铺设AGI时代的基础设施轨道 [13]
GPT-5没有追求AGI,它代表的是OpenAI的商业化野心
36氪· 2025-08-08 10:28
模型性能对比 - GPT-5在AIME '25测试中达到94.6%准确率,领先Gemini 2.5 Pro的93.8%和Claude 4.1的94.1% [1] - FrontierMath测试中GPT-5表现26.3%,略低于Gemini 2.5 Pro的27.1% [1] - GPQA diamond测试GPT-5获得85.7%准确率,与Claude 4.1的85.9%接近 [1] - HMMT 2025测试GPT-5以93.3%领先其他模型 [1] 技术突破 - GPT-5采用新型合成数据训练方法,通过GPT-4o等前代模型生成高质量训练数据 [3] - 合成数据流程专门设计用于生成"正确类型数据",提升模型推理和规划能力 [3] - 在Tau²-bench电信领域测试中达到96.7%准确率,显著优于GPT-4.1的34% [7] - 上下文长度扩展至400k,思考过程token消耗减少50%-80% [20] Agent能力提升 - GPT-5优化了工具调用能力,支持自然语言描述触发工具使用 [8] - 具备出色的工具并行使用能力,可判断工具运行顺序与并行性 [8] - 在智能体式编码测试中表现优异,一次性解决其他模型无法完成的任务 [15] - 编程时采用"边想边做"的迭代方式,优于Claude 4 Opus的"想清楚再做"模式 [15] 商业化策略 - ChatGPT周活用户超过7亿,付费用户达500万,订阅收入27亿美元 [18] - API定价策略激进,输入1.25美元/百万tokens,输出10美元/百万tokens [18] - 价格直接对标Gemini 2.5 Pro,大幅低于Claude 4 Opus的75美元/百万tokens输出 [19] - 推出DeepResearch、Canvas编辑、生图功能等商业化导向的产品升级 [18] 行业趋势 - 2025年AI应用领域最热关键词为Agent,OpenAI引领此波热潮 [6] - 主流模型厂商均以Agentic AI为目标优化模型能力 [6] - 大语言模型进步呈现渐进式而非跨越式,可能遭遇技术瓶颈 [21] - AI应用市场呈现快鱼吃慢鱼特征,大厂在创新速度上不占优势 [21]
GPT-5 之后,我们离 AGI 更近了,还是更远了?
36氪· 2025-08-08 07:10
产品发布与市场定位 - OpenAI于2025年8月8日发布GPT-5,距离GPT-4发布间隔939天[2] - 公司首席执行官Sam Altman将产品定位为“随需应变的博士级专家团队”,强调其核心价值从“聊天”转向“做事”[4] - OpenAI研究员Tina Kim宣布公司将淘汰所有旧模型,终结“模型动物园”时代[6] 技术架构与性能特点 - GPT-5采用统一智能系统架构,包含快速模型(gpt-5-main)、深度推理模型(gpt-5-thinking)和实时路由器(real-time router)[5] - 模型支持文本和图像输入,仅输出文本,输入限制为272,000个token,输出限制为128,000个token[5] - 通过API提供常规、迷你和纳米三种模型规格,每种可在最小、低、中或高四种推理级别运行[5] - 官方宣称在减少幻觉、提高指令遵循能力方面取得显著进展,特别针对编程、写作和健康三大常用场景进行优化[26] 市场竞争与定价策略 - API定价为每百万输入token 1.25美元,比GPT-4o便宜50%,低于Claude Opus 4.1的15美元和Gemini 2.5 Pro的2.5美元[16][17] - 迷你版和纳米版定价分别为每百万输入token 0.25美元和0.05美元,低于亚马逊Nova Lite的0.06美元[17] - 发布会期间出现竞争对手动态,马斯克宣称Grok 4在ARC-AGI-2基准测试中击败GPT-5[12] 实际应用与生态影响 - 演示显示GPT-5能在两分钟内根据自然语言指令生成完整交互式网站,包括闪卡、测验和游戏功能[14] - 在复杂生产代码修改测试中,GPT-5成功完成Gemini 2.5 Pro和Claude 4 Opus失败的任务[16] - Cursor公司CEO Michael Truell在发布会演示中让GPT-5解决GitHub上悬挂三周的issue,评价其为“第一次信任模型完成最重要工作”[16] - 但文本写作能力引发争议,用户反馈显示其表现不及专门进行情感特化的GPT-4.5模型[18][21] 安全性能与行业趋势 - 系统卡片显示模型通过安全完成方法防止生成不允许内容,并训练深度推理模型在无法完成任务时诚实承认[26][27] - 抵抗提示注入攻击的能力达到56.8%,意味着仍有近半数攻击有效[29] - 行业观察指出Transformer架构可能达到瓶颈期,AI发展从“大航海时代”进入更成熟的“工业时代”[30]
GPT-5 之后,我们离 AGI 更近了,还是更远了?
AI科技大本营· 2025-08-08 05:58
GPT-5发布背景 - GPT-4发布于2023年3月15日 引发行业震动 但仅是AI技术爆发的序章[1][2][3] - GPT-5于2025年8月8日发布 距离GPT-4发布间隔939天 行业期待值极高但实际反响复杂[4] - 发布会基调从"聊天"转向"做事" 强调实用主义 定位为"随需应变的博士级专家团队"[6] 技术架构创新 - 采用统一智能系统架构 包含快速模型(gpt-5-main)和深度推理模型(gpt-5-thinking) 通过实时路由器动态调度[7] - 提供三种API模型规格(常规/迷你/纳米)和四种推理级别(最小/低/中/高) 输入限制272k token 输出限制128k token[7][9] - 淘汰旧有"模型动物园"模式 建立统一协同的智能有机体[9] 性能表现 - 基准测试成绩突出:AIME 2025数学测试94.6% SWE-Bench编程测试74.9% MMMU多模态理解84.2%[16] - 发布会现场出现数据可视化错误 69.1%柱状图比52.8%更短 引发质疑[13] - 马斯克宣称Grok 4在ARC-AGI-2测试中击败GPT-5[15] 核心能力聚焦 - 专注三大核心场景:编程/写作/健康咨询 其他多模态功能(音频/图像)暂不整合[19][28] - 编程能力显著提升 可完成生产级代码修改 在复杂项目中表现优于Gemini 2.5 Pro和Claude 4 Opus[21] - 写作能力存在争议 不及情感特化的GPT-4.5 但Sam Altman宣称已有显著改进[24][25][27] 商业策略 - API定价极具侵略性:每百万输入Token仅1.25美元 较GPT-4o降价50%[21] - 对比此前失败的GPT-4.5(原价180美元/百万输出)形成强烈反差[22] - 采取以利润换市场策略 意图快速建立开发者生态[21] 技术挑战 - 模型幻觉问题持续改进 通过"安全完成"训练方法和诚实应答机制降低错误率[28][30] - 提示注入攻击防御能力达56.8% 但仍有较大改进空间[32][34] - 行业观点认为Transformer架构可能已达瓶颈 需要新的架构突破实现AGI[36] 行业影响 - 标志AI发展进入"工业时代" 从探索期转向专业化应用阶段[37] - 对开发者形成利好 提供更可靠的生产力工具[38] - 普通用户DAU持续增长 但专业用户评价分化[4][35]
SuperX Launches New All-in-One Multi-Model Server Series, Redefining Enterprise AI Productivity
Prnewswire· 2025-08-07 10:30
核心观点 - SuperX推出全新All-in-One Multi-Model Servers(MMS),预装OpenAI最新高性能大语言模型GPT-OSS-120B和GPT-OSS-20B,为企业提供开箱即用的全栈AI解决方案 [1][2][3] - MMS采用多模型融合架构,支持推理模型、通用模型、语音合成/识别模型等多种模型,实现与终端应用场景的深度融合 [5][7] - 该解决方案旨在解决企业AI部署中的数据隐私、部署复杂性和操作可扩展性等关键障碍,提供高效、安全、可靠的企业级生成式AI平台 [4][8] 产品特点 - **预装高性能模型**:MMS预装OpenAI最新开源模型GPT-OSS-120B和GPT-OSS-20B,在MMLU和AIME等关键测试中性能超越部分领先闭源模型 [3] - **多模型融合**:支持多种模型的预配置、调用、加速、管理和迭代,包括文本到图像模型、语音合成/识别模型等 [5] - **企业级功能**:内置门户助手和知识库系统,支持60多种预配置场景化智能代理(如公文起草、法律咨询、政策比较) [7] 技术优势 - **认知跃升**:多智能体协作支持更复杂的业务应用场景,例如通过文本描述直接定位视频片段 [7] - **知识赋能**:实现“所想即所得”的闭环业务流程 [7] - **云协同模型缓存**:通过本地和云端模型仓库的联动,用户可即时体验全球最新模型 [7] - **全栈集成**:从芯片到模型服务的统一平台,用户无需关注底层技术栈 [7] 企业应用 - **数据安全**:基于NVIDIA Blackwell平台的机密计算技术,提供可信执行环境(TEE),保护AI知识产权和模型安全 [10] - **高效部署**:全栈软硬件集成,可在几分钟内完成部署,无需额外基础设施或IT资源 [10] - **工作流效率**:提供预配置模板和操作指南,支持无代码或低代码界面快速构建智能代理 [10] 产品系列与定价 - **AI工作站系列**:AI Workstation Ultra(25万美元)适合企业级专业用途,AI Workstation Standard(5万美元)适合企业级个人使用 [9] - **AI服务器系列**:B200标准版(50万美元)适合中型企业,集群版(400万美元起)适合所有应用场景 [9][11] 行业影响 - SuperX通过MMS推动大模型应用向多模型智能体协作的新时代迈进,标志着AI基础设施产品的进一步扩展 [2] - 公司CTO强调多模型协作是AI向通用人工智能(AGI)演进的关键步骤,旨在构建与企业和AI开发者合作的生态系统 [8]
GPT-5难产内幕曝光,核心团队遭挖空,推理魔咒难破,靠英伟达续命
36氪· 2025-08-04 01:29
GPT-5研发内幕 - GPT-5未取得技术突破 不存在GPT-3到GPT-4级别的跃升 [1][8] - 面临严重数据瓶颈和技术难题 高质量网络数据日益枯竭 [1][7] - Orion项目失败 原计划作为GPT-5推出 最终降级为GPT-4.5 [5][6] - 推理模型成为新突破口 Q*技术能解决前所未见的数学问题 [16] - 内部测试显示新模型在更多算力下表现惊人 但转化为聊天版本后性能下降 [8][20] 公司融资情况 - 获得83亿美元融资 估值达3000亿美元 [3] - 本轮融资由Dragoneer投资集团以28亿美元领投 [4] - 软银牵头整个400亿美元融资计划 [4] - 融资将支持未来三年半烧掉450亿美元的计划 [10] 技术进展 - GPT-5编程和数学能力显著提升 驱动AI智能体优于前代 [10] - 开发"通用验证器" 可自动化确保模型产生高质量答案 [24] - 强化学习系统被认为具备通往AGI的潜力 [26] - o3模型理解科学知识能力大幅提升 受益于更多英伟达芯片和网络搜索能力 [19] 公司内部状况 - 核心研究者被Meta挖走 导致组织架构混乱 [1][12] - 研究副总裁公开抱怨团队变动问题 [14] - 与微软合作存在分歧 部分高级研究者抵触将成果交给微软 [12] - 公司决定回归GPT命名体系 因o系列模型造成用户困惑 [23] 未来发展 - 高管相信现有架构可达到GPT-8水平 [11] - CEO认为有望利用现有技术创造AGI [11] - GPT-5在不消耗更多算力情况下能生成更高质量代码和文本 [11] - 模型学会精准判断不同任务所需计算资源量 [11]