OpenAI研发进展与挑战 - 自2024年5月GPT-4o发布后,公司顶尖团队尚未完成一次为下一代前沿模型设计的大规模预训练[3][5] - 过去两年半时间,公司没有真正扩大预训练的规模[7] - 第五代旗舰模型GPT-5及GPT-5.1的技术根基可能仍未突破GPT-4o的范畴,而非基于全新前沿模型的大规模预训练[1][12][25] 具体项目遇挫详情 - 秘密项目Orion原定以GPT-5面世,但因训练未达预期被降级为GPT-4.5发布[11] - Orion大规模预训练时间超过3个月,打破行业通常1-2个月的常规,且性能提升主要局限在语言能力,代码能力甚至不如旧模型且成本更高[14][17] - GPT-4.5基于Orion模型,追求更强的语言能力、更稳的对话体验和更大知识库,情商成为关键词,代码虽有提升但并非主菜[17][18] 模型性能与行业对比 - GPT-5发布后业界反响唏嘘,被视为GPT-4.5的进一步优化版而非颠覆性飞跃[20] - 技术社区观点认为GPT-5更像是GPT-4o的功能增强版,即便命名为GPT-4.2也毫不违和[34][35] - 相比前代GPT-4.5,GPT-5很可能消耗了更少的训练算力[36] - 根据基准测试数据,谷歌Gemini 3 Pro在多项指标上超越GPT-5.1,例如Humanity's Last Exam(37.5% vs 26.5%)、ARC-AGI-2(31.1% vs 17.6%)、MathArena Apex(23.4% vs 1.0%)等[31] 战略转向与内部调整 - 公司将更多精力转向推理模型,这种模型计算量更大但有望输出更优质回答[34] - 公司内部共识已从追求“统治一切”的超级模型转变为模型专业化和多样化,认可需要针对特定任务的专用模型[54] - 公司正打造代号为“Shallotpeat”的新一代大语言模型,专门修复预训练过程中遇到的种种疑难杂症[46][50] - 公司重点发展智能体开发工具“Agent Builder”,将智能体划分为探索型/非定向工作和流程型/SOP导向工作两类[60][62] 竞争对手动态与行业影响 - 谷歌在预训练领域取得新突破,给Gemini 3带来空前推理深度,而谷歌和Anthropic仍在扩大预训练并增强强化学习[25][31] - 公司内部备忘录承认谷歌在大语言模型特别是预训练方面表现出色,承认竞争对手重新崛起和企业需求降温打破了其无敌光环[27][29] - 公司计划在圣诞节前夕发布一系列新模型,包括Image Gen v2、IMO和IOI金牌多模态模型、GPT-5.2 Codex等[72][73]
OpenAI大溃败,GPT-5「换皮」GPT-4o,两年半预训练0突破