Workflow
Gemini 3.0
icon
搜索文档
GPT-5内测抢先公布:日常推理首次击败人类,编程数学科学问题能力都很强
36氪· 2025-08-07 07:21
疑似GPT-5发布的预告才刚刚发出,内测体验已抢先释出。 推理能力首次超越人类,碾压所有大模型。 这来自一位网友的实测结果,他让所有模型开启推理模式做了10道题,只有GPT-5只错了一题,比人类的正确率还高。 且不是孤例,有人表示自己的实测结果非常相似,GPT-5也是只错了10道题中的1道。 除了出色的推理能力,还有拿到内测名额的人表示,GPT-5的编程、数学以及解决科学问题的能力也很出色。 这不,已经有人开始调侃GPT-5取代博士了。 几乎都是一次答对,最多2次。其他大模型却需要更多次数尝试。 现在可以确定的是,OpenAI预告了今晚的发布会,而且把livestream中的s换成了5。 以及谜语人奥特曼刚刚发了一张图……大家自行猜测吧。 总之感觉一切都箭在弦上了,具体性能如何,先来看看提前路透吧! 推理 编程 解决科学问题 数学 首先在推理方面,网友@invincibleHunter是在Copilot上体验到的。 推理编程能力值得关注 目前来看GPT-5值得关注的能力包括: 尽管模型并没有透露自己的型号,但是结合前几天有人在发现Copilot要上线的Smart模式是集成GPT-5,所以推测应该是GPT-5。 ...
GPT-5内测抢先公布:日常推理首次击败人类,编程数学科学问题能力都很强
量子位· 2025-08-07 04:15
GPT-5性能表现 - 推理能力首次超越人类,在10道逻辑题测试中仅错1题,正确率90%,高于人类平均水平[2][4][5] - 编程、数学及解决科学问题的能力显著提升,被调侃可能取代博士[7][8][30] - 多模态能力飞跃式进步,可直接生成高质量独角兽SVG,效果远超GPT-4[26][28] 技术突破与挑战 - 参数规模比GPT-4大幅增加,但数据缺乏成为主要瓶颈[31][33] - 预训练周期长达数月,因模型规模导致调试难度指数级上升[35] - OpenAI雇佣科学家专门编写优质训练数据以弥补数据缺口[32] 行业竞争动态 - 谷歌和Anthropic在GPT-5预热期间密集发布新模型抢夺热度[36][37] - 谷歌计划推出开源大模型直接对标OpenAI[38] - 创始人Sam Altman通过《星球大战》死星图片隐喻GPT-5将主宰竞争对手[41][42] 发布信息 - OpenAI通过将官网直播链接"livestream"改为"live5tream"暗示GPT-5发布[10] - 发布会定于北京时间8月8日凌晨1点,内测用户反馈性能提升幅度可能不及GPT-3到GPT-4的跨越[30][39]