GPT-5.2 翻车内幕曝光:技术团队没走「歪路」,但用户成了大冤种
36氪·2025-12-19 09:30

文章核心观点 - OpenAI最新发布的GPT-5.2模型在技术基准测试上表现卓越,但在用户端遭遇了广泛的负面反馈,反映出公司技术研发方向与主流用户需求之间存在显著脱节 [1][2][4] - 公司面临的核心矛盾在于:研究团队专注于提升模型在数学、编程等竞赛场景的推理能力,而绝大多数用户的核心需求是实用、快捷的日常助手功能 [4][7][9] - 资源分散、产品体验优化被边缘化以及来自竞争对手的压力,迫使OpenAI拉响“红色警报”,要求重新聚焦于改善ChatGPT的产品体验 [10][12][17] - 与谷歌等巨头相比,OpenAI在分发渠道和硬件算力成本上存在明显短板,这对其长期竞争构成严峻挑战,公司正通过大规模融资来应对资金消耗 [27][29][31] 技术研发与用户需求脱节 - GPT-5.2在多项基准测试中达到SOTA水平,尤其在数学和编程竞赛场景表现亮眼,但用户普遍批评其回答变得平淡、乏味且说教性强 [1][2] - OpenAI内部分析显示,用户的核心需求高度集中于实用指导(29%)、信息查询(24%)和写作(24%),而编程任务相关对话仅占4.2% [7] - 研究团队过去一年将资源倾斜于超过1000人规模的推理模型开发,以突破大模型瓶颈,但这导致对ChatGPT日常体验的优化被边缘化 [12] - 为适配聊天场景而进行的调整,曾在年初内测中导致模型性能倒退,后来推出的“思考模式”和“深度研究”功能用户使用率很低 [14] - 新旧模型集成时出现兼容问题,例如GPT-5在集成进ChatGPT后,因系统根据用户个性化信息调整回答,导致部分编程任务表现变差 [15] 公司战略与资源分配问题 - 公司同时启动了多个新项目,包括视频生成Sora、音乐AI、浏览器、AI Agent、硬件设备和机器人,导致资源被分散,每条战线都缺乏人力和算力 [10] - 内部在“研究优先”和“产品增长”之间存在拉扯,例如在图像生成模型的开发优先级上,管理层与研究团队曾产生分歧 [12] - 应用负责人Fidji Simo承认,公司本质仍以研究为中心,“产品本身并不是最终目标”,这与主要依赖个人订阅收入的商业逻辑存在潜在冲突 [17][19] - 由于算力紧张,每当有新功能上线,就需要从研究部门抽调算力资源给产品部门,这种模式被形容为“饮鸩止渴”的循环 [29] 竞争压力与公司应对 - 谷歌Gemini 3 Pro的强势发布,被OpenAI视为精准刺痛了其产品策略的软肋,最终促使公司拉响“红色警报” [17][22] - 公司CEO Sam Altman将DeepSeek的崛起和Gemini 3的发布视为良性的外部刺激,并称这种紧急反应状态通常只持续六到八周 [20][22][24] - 作为应对措施的一部分,公司发布了专为解决复杂现实软件工程问题而生的GPT-5.2-Codex模型 [24][26] - Altman预计在明年第一季度,会有比GPT-5.2有显著提升的新模型发布,但未明确将其命名为GPT-6 [26] 行业竞争格局与公司短板 - 谷歌的核心优势在于其几乎无可匹敌的分发渠道,如搜索、Chrome和办公套件,用户的迁移成本极低 [27] - 在硬件层面,OpenAI每年需花费数十亿美元租用算力,而谷歌凭借自研TPU芯片建立了显著的效率与成本优势 [27][29] - 据《华尔街日报》报道,OpenAI计划发起1000亿美元的巨额融资,目标是在明年第一季度前达到8300亿美元的估值 [29] - 软银已同意向OpenAI投资300亿美元,并通过出售价值58亿美元的英伟达股份来筹集部分资金 [31] - 预计到2030年,OpenAI的现金消耗将超过2000亿美元,其融资前景可能受到谷歌等竞争对手的间接挤压 [31]