刚刚，奥特曼发布GPT-5！人人免费用「博士级」智能，基准图错误遭全网吐槽

GPT-5发布核心亮点 - GPT-5为集成模型系统，包含高效应答模型、深度推理模型及实时router，可自动分配最优处理方式[6][29][30] - 在数学、编程、多模态及健康领域表现突出：AIME 2025测试达94.6%，SWE-bench编程74.9%，MMMU多模态84.2%，HealthBench Hard健康领域46.2%[9][33] - 推出三档商业化版本：免费版含基础推理功能，Plus版减少频率限制，Pro版提供最高性能[7][76][77] 技术性能突破 - 推理效率显著提升，输出token量减少50-80%，在视觉推理、科学问题解决中优于前代o3模型[68][69][70] - 三大关键改进：降低幻觉生成、提升指令遵循精度、减少迎合性回答，文本创作、编程开发、健康咨询场景全面优化[32] - 多模态能力增强，可精准解析图像、视频及科学图表，支持跨工具协同操作[53][47] 商业化与API定价 - 开发者API定价分层：标准版输入/输出Token分别为1.25美元/百万和10美元/百万，mini/nano版更低价[8] - 与微软深度合作，基于Azure AI超级计算机训练并首发上线微软平台[73][74] - GPT-5 Pro专攻高复杂度任务，在GPQA钻石级科学问题测试中达88.4% SOTA成绩[40][77] 实际应用场景 - 教育领域可快速生成代码（如法语学习网页）及互动教学内容（伯努利效应演示）[11][12] - 健康功能优化，现场展示癌症病情解释能力，自称"迄今最佳健康模型"[16] - 语音模式升级，支持自然语调调节，适用于语言学习[14] 争议与不足 - 现场演示出现跑分图表错误，CEO承认技术失误[18] - 在ARC-AGI-2基准测试中未击败竞品Grok 4，引发性能质疑[22] - 部分用户认为整体表现未达预期，存在数据源争议[25][26] 模型架构演进 - 前代模型对应升级路径明确：GPT-4o对应gpt-5-main，o3对应gpt-5-thinking系列[81] - 计划未来将多模型能力融合为单一终极模型[31] - 系统卡披露完整技术细节，包含与历史版本的关联图谱[80]