Workflow
自主时间
icon
搜索文档
GPT-5真身曝光,首测编程惊艳全网,一句话秒生游戏,OpenAI双雄备战AGI
36氪· 2025-08-01 10:25
神秘模型Horizon Alpha性能表现 - 一款名为Horizon Alpha的神秘模型在OpenRouter平台上线,其上下文长度为256K,响应速度极快,非常擅长创意写作 [1][3] - 在编程能力方面表现极为突出,可以一句话生成“水果忍者”、“外星人抓奶牛”等游戏,能根据logo图直接生成广告,并能轻松通过“六边形物理模拟”测试 [5] - 在写作EQ-Bench基准测试中,Horizon Alpha位列第一,其Elo得分为1591.6,远超o3模型的1641.0和Gemini 2.5 Pro模型的1417.2 [12] - 在长文本创意写作基准测试中,Horizon Alpha生成长度为14,072个token的文本,得分为80.5,位列第一,优于Gemini 2.5 Pro(6,093个token,得分78.7)和o3(7,493个token,得分77.5) [16] - 在情感智能基准测试中,Horizon Alpha在多项能力上得分领先,其Elo得分为1570.9,高于Kimi-K2-Instruct的1567.9和o3的1500.0 [15] - 模型推理时的吞吐量达到120个token/s,相较于Claude Sonnet 4的60-80 token/s速度更快 [22] - 能够快速创建功能完整的Windows 95复古桌面,并在3分48秒内创建一个展示一系列简单有趣的浏览器小游戏的网页 [24][28] - 在SVG创建和UI设计方面表现出色,能瞬间生成具有专业设计美感的图像,被评价为视觉上类似o3-alpha的精致输出 [39][40] - 在生成“骑自行车的鹈鹕”同款SVG测试中,被认为是所有模型中最强的 [41] - 尽管测试表现不凡,但多方推测Horizon Alpha可能只是一款小模型 [51] GPT-5发布前兆与OpenAI研发动态 - Horizon Alpha的出现被认为是GPT-5发布的强烈前兆 [1] - 此前被爆料的代号模型如lobster、zenith、summit等在多项测试中表现惊艳,种种迹象表明GPT-5“全家桶”将是非常强大的模型 [18] - 谷歌收录的GPT-5 OpenAI文档页面目前显示404 [20] - 在GPT-5发布前夕,OpenAI首席科学家Jakub Pachocki和研究主管Mark Chen接受了专访,他们被认为是研发GPT-5的“双巨头” [55] - OpenAI首席执行官Sam Altman对这篇专访大加赞赏,认为其抓住了两人合作精髓 [55] - Mark Chen曾负责DALL·E、GPT-4多模态能力及Codex的关键研发,擅长将复杂研究转化为产品;Jakub Pachocki则负责设定研究路线图和技术愿景 [60][63] - 关于当前技术瓶颈,Mark Chen坦言即便是最强推理模型也无法有效将知识串联起来,Jakub Pachocki补充说明他们仍处于推理范式的开端 [65][67] - 公司坚信Scaling Law远未触及天花板,通过投入更多计算资源和数据,模型会变得越来越好 [67] - 对于AGI,Mark Chen提出了“自主时间”这一指标,即模型能更长时间自主工作的能力,目前模型的自主时间仅限于几分钟到一小时 [67] - OpenAI模型近期在AtCoder世界巡回赛总决赛中获得第二名,并在IMO 2025大赛中夺得金牌 [68] - Pachocki认为,在编程和数学竞赛中的胜利实际上关乎创造力,提出新颖想法和联系不同领域,数学和编程被视为“通用智能”的基石 [71]