产品发布与市场表现 - OpenAI发布新一代旗舰模型GPT-5,立即向免费、Plus、Pro、Team用户开放,企业和教育用户一周内获得访问权限[1] - GPT-5发布后迅速登上大模型竞技场榜首,在文本、编程、数学等全领域排名第一,Arena Score达1481±11[3] - 公司CEO称GPT-5达到博士级别智能,能完成日常规划、发送邀请函等任务,不仅是问答工具[4] - 发布2小时后推文获得超160万浏览,OpenAI估值飙升至5000亿美元,比年初翻倍[44][46] 技术特性与架构 - GPT-5将非推理与推理模型融合,支持"按需思考"功能,根据任务难度自动判断思考深度[3] - 模型集成多模态能力,相当于融合GPT和o系列模型,用户无需纠结产品族选择[4] - 提供4种人格模式:愤世嫉俗者、机器人、倾听者和书呆子,支持界面颜色自定义[3][18] - 采用新型安全训练方法"安全完成",减少不必要拒绝回复,阿谀奉承回复比例从14.5%降至6%以下[42] 性能表现与基准测试 - 在科学知识基准GPQA上获得88.4% SOTA成绩,无需工具辅助[4] - 事实性错误较o3减少80%,在LongFact和FActScore测试中错误率仅为o3的1/5[32] - 编程能力显著提升,在SWE-bench测试中达74.9%,Aider polyglot测试88%[37] - 长上下文处理能力突出,OpenAI-MRCR测试中表现优于o3和GPT-4.1,随输入长度增加优势扩大[27] 产品矩阵与商业化 - 推出四版本模型:GPT-5、GPT-5-mini、GPT-5-nano和GPT-5-pro,免费用户超限额后自动转用mini版[6] - API定价:GPT-5输入/输出每百万token 1.25/10美元,mini版为1/5价格,nano版为1/25价格[6] - 与Anthropic和谷歌相比,GPT-5 API成本相当或更低,如Claude Opus 4价格为15/75美元[7] - GPT-5-pro专供Pro用户,采用并行测试时计算技术,在67.8%测试中被专家认为优于GPT-5[43] 应用场景与功能 - 编程能力获Cursor创始人认可,能快速解决GitHub上遗留3周的PR问题[14] - 可创建动态SVG演示图解释复杂概念,如伯努利现象,并允许用户交互调整参数[10][11] - 改进语音功能使对话更自然,免费用户每天可使用数小时,支持韩语等语言学习[18] - 增强记忆功能,Pro用户可接入Gmail和日历自动规划日程,考虑历史安排[20] 技术参数 - API支持最大272k输入tokens和128k输出tokens,总上下文长度400k tokens[22] - 引入verbosity参数控制回答详略程度,支持最低推理模式快速返回答案[22] - 在工具调用基准τ2-bench telecom中创96.7%新高,能可靠串联数十次工具调用[29][34] - 开源BrowseComp Long Context基准,用于评估长背景信息问答能力[34]
刚刚,GPT-5淘汰所有OpenAI模型,地表最强编程惊艳全场,马斯克不服开怼
36氪·2025-08-08 00:56