Workflow
快来看看GPT-5第一波实测
量子位·2025-08-08 05:34

GPT-5技术能力 - 具备"博士生水平"的复杂任务处理能力 成功复原20阶魔方耗时18分半 [4][20][21] - 多模态应用开发能力突出 可生成网页版Word/Excel、3D生命游戏、流体动力学模拟器 [22][24][31] - 长文本理解能力显著提升 在OpenAI-MRCR 256k测试中准确率达86.8% 远超GPT-4系列 [38][39] - 常识推理突破大模型瓶颈 在SimpleBench测试中首次超越人类平均水平 [40][42] 行业竞争格局 - 大模型竞技场综合排名第一 总分1481分领先Gemini 2.5 Pro(1460分)和Grok 4(1429分) [50][52] - 编程单项能力被Claude 4-Sonnet超越 得分68.97 vs 73.58 [59][61] - 实际对战数据显示 Gemini 2.5 Pro在2/3场景中胜出但综合评分较低 [53][55] - 马斯克公开质疑其AGI能力 出示ARC-AGI和Humanity's Last Exam测试结果 [14][64] 产品商业化影响 - 发布会演示法语学习功能 直接冲击多邻国股价走势 [10] - 开发者生态活跃 已出现太空模拟器/冥想应用/Windows 95克隆等创新案例 [7] - Pro版本展现进阶能力 成功破解修改版"外科医生谜语"测试题 [43][47] - 设计体验存在争议 法语学习界面被批丑陋 多模态数数功能仍有缺陷 [70][66] 市场争议事件 - 发布会图表出现"52>69=30"计算错误 引发网友大规模调侃 [17][72][73] - 测试数据可视化方式受质疑 被指刻意夸大性能优势 [76][77] - 版本迭代策略激进 旧版ChatGPT用户面临强制升级 [80]