Workflow
刚刚,奥特曼发布GPT-5!人人免费用「博士级」智能,基准图错误遭全网吐槽
机器之心·2025-08-07 20:48

GPT-5发布核心亮点 - GPT-5为集成模型系统,包含高效应答模型、深度推理模型及实时router,可自动分配最优处理方式[6][29][30] - 在数学、编程、多模态及健康领域表现突出:AIME 2025测试达94.6%,SWE-bench编程74.9%,MMMU多模态84.2%,HealthBench Hard健康领域46.2%[9][33] - 推出三档商业化版本:免费版含基础推理功能,Plus版减少频率限制,Pro版提供最高性能[7][76][77] 技术性能突破 - 推理效率显著提升,输出token量减少50-80%,在视觉推理、科学问题解决中优于前代o3模型[68][69][70] - 三大关键改进:降低幻觉生成、提升指令遵循精度、减少迎合性回答,文本创作、编程开发、健康咨询场景全面优化[32] - 多模态能力增强,可精准解析图像、视频及科学图表,支持跨工具协同操作[53][47] 商业化与API定价 - 开发者API定价分层:标准版输入/输出Token分别为1.25美元/百万和10美元/百万,mini/nano版更低价[8] - 与微软深度合作,基于Azure AI超级计算机训练并首发上线微软平台[73][74] - GPT-5 Pro专攻高复杂度任务,在GPQA钻石级科学问题测试中达88.4% SOTA成绩[40][77] 实际应用场景 - 教育领域可快速生成代码(如法语学习网页)及互动教学内容(伯努利效应演示)[11][12] - 健康功能优化,现场展示癌症病情解释能力,自称"迄今最佳健康模型"[16] - 语音模式升级,支持自然语调调节,适用于语言学习[14] 争议与不足 - 现场演示出现跑分图表错误,CEO承认技术失误[18] - 在ARC-AGI-2基准测试中未击败竞品Grok 4,引发性能质疑[22] - 部分用户认为整体表现未达预期,存在数据源争议[25][26] 模型架构演进 - 前代模型对应升级路径明确:GPT-4o对应gpt-5-main,o3对应gpt-5-thinking系列[81] - 计划未来将多模型能力融合为单一终极模型[31] - 系统卡披露完整技术细节,包含与历史版本的关联图谱[80]