GPT-5发布与市场反应 - OpenAI发布GPT-5,CEO奥特曼称其为迄今为止最智能的模型,性能覆盖文本、网页开发、视觉、编程、数学等全领域[2][4] - LMArena基准测试显示GPT-5在8个核心领域均排名第一,包括创意表达和长查询处理[4] - 首批20%付费用户已获得访问权限,界面整合为GPT-5、GPT-5 Thinking和GPT-5 Pro三个版本[19][20] 性能优势与用户正面反馈 - 用户体验报告显示GPT-5在科学推理、事实准确性和创意表达有显著提升,免费与企业用户均感知明显改进[6][10] - 编程能力案例:6秒生成SVG图像(鹈鹕骑自行车)、13秒完成音乐节拍生成(BeatBot工具),动态太阳系轨迹代码实现完整[31][41][45] - 中文理解能力通过复杂绕口令测试(亲属关系推理),准确识别直接行为人[28] 功能局限性与负面评价 - 编程任务表现不稳定:生成《Flappy Bird》游戏链接失效、p5.js动画输出黑屏、水桶流体模拟罢工[12][34][58] - 写作与幽默感缺陷:林黛玉风格模仿生硬,笑话生成未能达到预期效果[25][26] - 物理模拟部分失败:布料材质模拟首次运行错误,功德箱界面简陋[54][56] 技术不透明性与体验差异 - 沃顿商学院教授指出GPT-5为集成模型,底层模型选择逻辑未公开导致用户体验差异[15] - 同一任务对比:Gemini 2.5 Pro在水桶模拟任务中生成基础可视化效果,而GPT-5无输出[60] - 经典推理题「木棍过城门」仍无法解决,反映逻辑能力短板[30] 多模态能力与行业应用潜力 - 图像生成效果获认可,如桃树工笔画达到较高还原度[63] - 复杂交互功能实现:俄罗斯方块游戏完整开发(含计分、控件和暂停功能)[52] - 物理引擎应用案例:旋转六边形内小球弹跳模拟支持参数实时调整(重力、摩擦系数等)[53]
GPT-5真的拉胯吗?机器之心一手实测,网友:还我4o、还我4.5
机器之心·2025-08-08 07:53