强化学习的 Scaling Law
搜索文档
对谈刘知远、肖朝军:密度法则、RL 的 Scaling Law 与智能的分布式未来丨晚点播客
晚点LatePost· 2025-12-12 03:09
文章核心观点 - 大模型的发展存在“规模法则”和“密度法则”两条主线,前者追求能力跃迁,后者追求效率提升,即单位算力/参数下智能的最大化 [12][13][18] - 行业正从盲目追求模型规模转向追求能力密度,效率提升将加速端侧智能(如手机、汽车)和分布式智能的发展,最终实现每个人的“专属大模型” [9][10][35] - 强化学习尚未出现清晰的Scaling Law,是当前主要瓶颈,未来的关键方向是自主学习(Self-Learning)和“AI造AI” [24][34][36] 大模型演进的明线与暗线 - **明线:规模法则 (Scaling Law)**:自2018年预训练模型出现后,每隔几年模型能力就会跳跃一次,模型正变得更通用,甚至开始接近或超越人类在某些领域的能力 [12] - **暗线:密度法则 (Densing Law)**:这是大模型时代的“摩尔定律”,关注如何用更少的计算和数据资源更高效地获得智能,核心是追求单位计算带来的智能最大化 [13][14][18] - **密度法则的量化表现**:根据研究,大模型的能力密度(衡量单位参数/算力下模型能力的指标)每3.5个月翻一倍,自2023年1月ChatGPT出现后,这一速度在加快 [4][7] 提升模型能力密度的具体方法 - **模型架构优化**:核心方向包括采用稀疏化的混合专家系统以降低算力消耗,以及对注意力机制进行各种效率改进以应对长文本和Agent任务的需求 [19][20] - **数据治理与合成**:通过高质量的数据清洗、精选和合成,可以大幅提升训练效率,例如将预训练数据集精炼至不到原始容量的1/10,效果反而更好 [22][23] - **学习算法演进**:当前重点转向强化学习,但其尚未出现清晰的Scaling Law,主要瓶颈在于难以构建可扩展的环境和可验证的激励 [24][25] - **软硬一体协同优化**:结合芯片制程进步(摩尔定律)与模型能力密度提升,共同推动端侧设备承载以往只能在云端运行的大模型能力 [30][31] 强化学习的现状与未来探索方向 - **当前瓶颈**:强化学习缺乏像预训练那样清晰的Scaling Law,大多数训练仅几千步,如何持续稳定训练并构建“不可破解”的学习环境是核心挑战 [24][25] - **两条探索路径**:一是继续扩大RL的规模,探索开放域的激励定义;二是寻找更高效的新学习方式,提高样本效率,让模型能像人一样通过少量反馈学习新任务 [26][27] - **RL的已验证能力**:只要有足够数据和反馈,强化学习已能在数学、代码等特定任务上达到人类前0.1%甚至0.01%的水平,预示了打造垂直领域“超级专家模型”的潜力 [25] 端侧智能与分布式智能的未来 - **端侧算力规模**:2023年全国端侧算力(主要是手机)是数据中心算力的12倍,信息化本质是分布式算力和信息的结构,智能化也将遵循这一路径 [9][35] - **端侧部署时间表**:结合密度法则提升和芯片路线图,预测到2030年左右,端侧可部署600亿以上参数的模型,5年内端侧很可能承载GPT-4至GPT-5能力的模型 [32] - **具体应用进展**:车端模型量产速度非常快,已与多家车企合作;预计2027年成为关键节点,届时手机可实现大规模强化学习,支持个人数据训练“专属大模型助理” [32][33] - **未来形态**:智能将分布式存在,形成“智能体的互联网”,个人拥有基于终端数据持续成长的“个人大模型”,云端则存在各垂直领域的“专家大模型” [10][35][36] 下一阶段的范式演进:自主学习与AI造AI - **核心方向**:预训练和强化学习之后,下一个大的方法改进是自主学习,即模型能作为一个高效的学习者,根据用户需求在终端上持续学习新技能 [34] - **发展三阶段**:第一阶段是实现自主学习;第二阶段是具备自主学习能力的AI之间的协作;第三阶段是具备创造新符号关系乃至新符号系统的创新能力 [34][35] - **AGI的雏形**:最早的AGI形态可能不是面向消费者的产品,而是面向生产的系统,具备“AI造AI”的能力,即能自主完成数据生产、环境构建、模型训练和部署的全流程 [36]