SFT远不如RL?永不过时的剃刀原则打开「终身学习」大模型训练的大门
机器之心·2025-09-09 11:46
机器之心报道 编辑:冷猫 我们已经进入了大模型时代,越来越多的应用依赖大模型的能力,可以说大模型已经成为智能化基础设施的核心组成部分,支撑着语言,视觉分析,智能驾驶, 机器人等各种下游应用。 在大模型的实际使用中我们发现,大部分的模型还只是某个细分领域任务的大牛,离我们理想中的 AGI 仍然遥遥无期。 准确的说,这些投入部署的大模型 大 多是「静 态」模型 ,对于其预训练或微调时优化的系列任务表现良好,但是在动态学习,自我提升这部分能力是缺位的。 如果我们希望实现更加通用的大模型,使其能像长期的智能助手一样,随时间不断适应新的任务与需求,很多技术瓶颈亟待突破。而最大的挑战之一就是「灾难 性遗忘」。 相信大家对这个概念已经非常熟悉了,灾难性遗忘指的是模型在学习新任务时,会丢掉之前学到的技能。扩大模型规模、增加预训练数据确实能稍微缓解遗忘现 象,但始终不能彻底解决。 图源:小红书 @ 机器坏人( AI 版) 针对灾难性遗忘的问题,研究者们提出了各种各样的改进方法,包括正则化、经验回放、参数微调等等。 但有没有一种可能,我们对大模型遗忘的研究想的有些太复杂了,如无必要勿增实体的 剃刀原则 才是根治问题的最佳手段。 ...