GPT-5真的拉胯吗？机器之心一手实测，网友：还我4o、还我4.5

GPT-5发布与市场反应 - OpenAI发布GPT-5，CEO奥特曼称其为迄今为止最智能的模型，性能覆盖文本、网页开发、视觉、编程、数学等全领域[2][4] - LMArena基准测试显示GPT-5在8个核心领域均排名第一，包括创意表达和长查询处理[4] - 首批20%付费用户已获得访问权限，界面整合为GPT-5、GPT-5 Thinking和GPT-5 Pro三个版本[19][20] 性能优势与用户正面反馈 - 用户体验报告显示GPT-5在科学推理、事实准确性和创意表达有显著提升，免费与企业用户均感知明显改进[6][10] - 编程能力案例：6秒生成SVG图像（鹈鹕骑自行车）、13秒完成音乐节拍生成（BeatBot工具），动态太阳系轨迹代码实现完整[31][41][45] - 中文理解能力通过复杂绕口令测试（亲属关系推理），准确识别直接行为人[28] 功能局限性与负面评价 - 编程任务表现不稳定：生成《Flappy Bird》游戏链接失效、p5.js动画输出黑屏、水桶流体模拟罢工[12][34][58] - 写作与幽默感缺陷：林黛玉风格模仿生硬，笑话生成未能达到预期效果[25][26] - 物理模拟部分失败：布料材质模拟首次运行错误，功德箱界面简陋[54][56] 技术不透明性与体验差异 - 沃顿商学院教授指出GPT-5为集成模型，底层模型选择逻辑未公开导致用户体验差异[15] - 同一任务对比：Gemini 2.5 Pro在水桶模拟任务中生成基础可视化效果，而GPT-5无输出[60] - 经典推理题「木棍过城门」仍无法解决，反映逻辑能力短板[30] 多模态能力与行业应用潜力 - 图像生成效果获认可，如桃树工笔画达到较高还原度[63] - 复杂交互功能实现：俄罗斯方块游戏完整开发（含计分、控件和暂停功能）[52] - 物理引擎应用案例：旋转六边形内小球弹跳模拟支持参数实时调整（重力、摩擦系数等）[53]