自主时间 - 财报，业绩电话会，研报，新闻

自主时间

搜索文档

GPT-5真身曝光，首测编程惊艳全网，一句话秒生游戏，OpenAI双雄备战AGI

36氪· 2025-08-01 10:25

神秘模型Horizon Alpha性能表现 - 一款名为Horizon Alpha的神秘模型在OpenRouter平台上线，其上下文长度为256K，响应速度极快，非常擅长创意写作 [1][3] - 在编程能力方面表现极为突出，可以一句话生成“水果忍者”、“外星人抓奶牛”等游戏，能根据logo图直接生成广告，并能轻松通过“六边形物理模拟”测试 [5] - 在写作EQ-Bench基准测试中，Horizon Alpha位列第一，其Elo得分为1591.6，远超o3模型的1641.0和Gemini 2.5 Pro模型的1417.2 [12] - 在长文本创意写作基准测试中，Horizon Alpha生成长度为14,072个token的文本，得分为80.5，位列第一，优于Gemini 2.5 Pro（6,093个token，得分78.7）和o3（7,493个token，得分77.5） [16] - 在情感智能基准测试中，Horizon Alpha在多项能力上得分领先，其Elo得分为1570.9，高于Kimi-K2-Instruct的1567.9和o3的1500.0 [15] - 模型推理时的吞吐量达到120个token/s，相较于Claude Sonnet 4的60-80 token/s速度更快 [22] - 能够快速创建功能完整的Windows 95复古桌面，并在3分48秒内创建一个展示一系列简单有趣的浏览器小游戏的网页 [24][28] - 在SVG创建和UI设计方面表现出色，能瞬间生成具有专业设计美感的图像，被评价为视觉上类似o3-alpha的精致输出 [39][40] - 在生成“骑自行车的鹈鹕”同款SVG测试中，被认为是所有模型中最强的 [41] - 尽管测试表现不凡，但多方推测Horizon Alpha可能只是一款小模型 [51] GPT-5发布前兆与OpenAI研发动态 - Horizon Alpha的出现被认为是GPT-5发布的强烈前兆 [1] - 此前被爆料的代号模型如lobster、zenith、summit等在多项测试中表现惊艳，种种迹象表明GPT-5“全家桶”将是非常强大的模型 [18] - 谷歌收录的GPT-5 OpenAI文档页面目前显示404 [20] - 在GPT-5发布前夕，OpenAI首席科学家Jakub Pachocki和研究主管Mark Chen接受了专访，他们被认为是研发GPT-5的“双巨头” [55] - OpenAI首席执行官Sam Altman对这篇专访大加赞赏，认为其抓住了两人合作精髓 [55] - Mark Chen曾负责DALL·E、GPT-4多模态能力及Codex的关键研发，擅长将复杂研究转化为产品；Jakub Pachocki则负责设定研究路线图和技术愿景 [60][63] - 关于当前技术瓶颈，Mark Chen坦言即便是最强推理模型也无法有效将知识串联起来，Jakub Pachocki补充说明他们仍处于推理范式的开端 [65][67] - 公司坚信Scaling Law远未触及天花板，通过投入更多计算资源和数据，模型会变得越来越好 [67] - 对于AGI，Mark Chen提出了“自主时间”这一指标，即模型能更长时间自主工作的能力，目前模型的自主时间仅限于几分钟到一小时 [67] - OpenAI模型近期在AtCoder世界巡回赛总决赛中获得第二名，并在IMO 2025大赛中夺得金牌 [68] - Pachocki认为，在编程和数学竞赛中的胜利实际上关乎创造力，提出新颖想法和联系不同领域，数学和编程被视为“通用智能”的基石 [71]

Scaling Law

自主时间

Artificial Intelligence

Artificial Intelligence

Horizon Alpha

GPT - 5