Distillation学习(SFT)
搜索文档
理解 RL学习的本质!
自动驾驶之心· 2025-12-15 00:04
原文链接: https://zhuanlan.zhihu.com/p/1972781108128155202 点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近30个 方向 学习 路线 作者 | wangleineo 来源 | 青稞AI >>自动驾驶前沿信息获取 → 自动驾驶之心知识星球 本文只做学术分享,如有侵权,联系删文 最近看了几篇关于RL学习的论文,发现这几篇研究存在着一些内在联系,综合起来看,也许有助于我们理解RL学习方法的本质。 破除迷信 Does RLVR enable LLMs to self-improve? 第一篇文章是最近备受关注的一篇论文,来自清华的LEAP实验室,在今年的NeurIPS拿下了全满分,获得最佳论文奖: https://arxiv.org/abs/2504.13837 这篇论文开宗明义提出了一个问题: RL学习真的能让LLM获得超越基础模型的推理能力吗? 研究结论很确切,不能 。论文用实验证明,RLVR后模型的能力完全在基础模型的能力范围内,只是搜索效率提高了,能更高效 地找到问题的解。而基础模型不能解决的问题,RLVR的模型一样不能解决。 证明 ...