规模假说(scaling hypothesis)
搜索文档
奥特曼发红色警报,大模型走进死胡同了吗 ?
36氪· 2025-12-03 04:31
行业技术瓶颈 - 大语言模型训练成本飙升但性能提升显著放缓,2019-2022年成本增加10倍性能提升25%-35%,2023年后同样成本投入性能提升降至10%-15%,2024年以来成本翻倍性能提升不足5% [2][3] - 头部模型性能表现趋同,在关键基准测试上得分集中在一个狭窄区间,2025年11月排名第一和第十的模型Elo评分差距从2024年6月的超过150分收窄至不足50分 [10] - 曾经被视为黄金定律的Scaling Law正在失效,模型代际更新间隔拉长,例如Meta Llama模型从第三代到计划推出的第四代间隔已超过15个月 [11][12] OpenAI面临的竞争与内部挑战 - 公司宣布进入"Code Red"紧急状态,竞争对手谷歌Gemini 3模型在基准测试上实现超越,其月活跃用户从2025年7月的4.5亿增长至10月的6.5亿,同时Anthropic的Claude周访问量达0.41亿人次,较六周前增长17.1% [1][3] - 自2024年5月GPT-4o发布后,公司顶尖研究人员未能成功完成一次大规模全面预训练,GPT-5相比GPT-4更像是微调优化而非代际升级,其MMLU评分仅比GPT-4提升10%-20% [6][7] - 公司调整策略重心转向优化现有产品ChatGPT,改进个性化功能、速度及可靠性,并推迟广告、健康AI代理等其他项目开发,鼓励员工调岗并每日召开改进会议 [8] 技术困境的根本原因 - 大语言模型面临"不可约误差"限制,当模型足够强不再犯低级错误后,由语言本身歧义和不确定性造成的误差无法通过增加数据、算力或改进算法消除 [14][15][16] - 高质量训练数据面临枯竭,GPT-4几乎已用完互联网上高质量文本,剩余大量低质量内容,使用AI生成数据训练会导致"模型崩溃",使模型输出多样性下降并放大自身错误 [20][21] - 互联网上已充斥大量AI生成内容,未来模型通过爬取网络获取训练数据将不可避免包含这些内容,使模型崩溃从理论问题转变为实际威胁 [22] 行业未来发展方向争议 - 以李飞飞为代表的观点认为大语言模型只是AI系统组件,未来需要发展能理解三维物理世界的"世界模型",使用逻辑规则和符号推理而非统计模式 [23][24] - 杨立昆等学者批评语言模型路径只是学习统计规律而非真正理解世界,实现真正智能需让AI建立对物理世界基本概念的模型 [25][27] - OpenAI和Anthropic坚持"规模假说",认为继续扩大模型规模、投入更多数据和算力,智能会"自动涌现",语言模型路径仍有潜力达到AGI [28][29]