Distillation学习（SFT） - 财报，业绩电话会，研报，新闻 - Reportify

Distillation学习（SFT）

搜索文档

理解 RL学习的本质！

自动驾驶之心· 2025-12-15 00:04

原文链接： https://zhuanlan.zhihu.com/p/1972781108128155202 点击下方卡片，关注" 自动驾驶之心 "公众号戳我-> 领取自动驾驶近30个方向学习路线作者 | wangleineo 来源 | 青稞AI >>自动驾驶前沿信息获取 → 自动驾驶之心知识星球本文只做学术分享，如有侵权，联系删文最近看了几篇关于RL学习的论文，发现这几篇研究存在着一些内在联系，综合起来看，也许有助于我们理解RL学习方法的本质。破除迷信 Does RLVR enable LLMs to self-improve？第一篇文章是最近备受关注的一篇论文，来自清华的LEAP实验室，在今年的NeurIPS拿下了全满分，获得最佳论文奖： https://arxiv.org/abs/2504.13837 这篇论文开宗明义提出了一个问题： RL学习真的能让LLM获得超越基础模型的推理能力吗？研究结论很确切，不能。论文用实验证明，RLVR后模型的能力完全在基础模型的能力范围内，只是搜索效率提高了，能更高效地找到问题的解。而基础模型不能解决的问题，RLVR的模型一样不能解决。证明 ...

Distillation学习（SFT）

On-policy Distillation

灾难性遗忘

Distillation学习（SFT）

On-policy Distillation

灾难性遗忘