大模型监督
搜索文档
突破后训练瓶颈?Meta超级智能实验室又一力作:CaT解决RL监督难题
机器之心· 2025-09-22 02:05
研究背景与问题 - 在AI领域,后训练通常依赖带有标注的监督微调或通过可验证的程序化检查器提供奖励,但许多有价值的任务可能同时缺乏这两种资源,例如在临床、自由对话和创意写作等不可验证的场景中,可能存在多个有效答案,确定性规则检查难以实施[1] - 实践者在缺乏真实标注时,往往只能依赖繁琐的标注流程,或通过另一个LLM对自由形式输出进行粗略奖励[2] 核心方法与创新 - 来自牛津大学、Meta超级智能实验室等机构的研究者提出了一种名为CaT(Compute as Teacher)的方法,核心思想是把推理时的额外计算当作教师信号,在缺乏人工标注或可验证答案时,也能为大模型提供监督信号[3] - 该方法的核心优势在于无需人工标注或外部验证器,仅通过模型自身的推理过程就能生成高质量的监督信号,适用于数学推理、医疗咨询、创意写作等缺乏标准答案的任务[7] - 方法流程包括探索阶段、合成阶段和角色分离设计:当前策略生成一组并行推演结果;一个冻结的锚点模型整合这些推演结果,合成一个单一的估计参考答案;当前策略负责探索,锚点模型作为稳定的估计器[8] - 本文最大创新是将额外的推理计算转化为监督信号,在公式表达上,对于每个输入提示,当前策略生成一组并行推演结果,然后冻结的锚点策略通过整合所有推演结果中的信息,合成一个统一的参考响应,最后将估计的参考响应转化为奖励信号[9] - 此外,研究还通过提供奖励函数来优化模型,使其接近预估参考值,称之为CaT-RL[11] 实验结果与性能提升 - 推理时直接应用CaT显著提升了Gemma 3 4B、Qwen 3 4B和Llama 3.1 8B的性能,即使在不可验证领域(MATH-500最高提升27%;HealthBench提升12%)[3] - 结合强化学习的CaT(CaT-RL)可进一步获得增益(最高提升33%和30%),训练后的策略甚至能超越初始教师信号[3] - CaT-RL不仅超越了初始策略,其表现也优于CaT方法[15] - 自拟评分标准在不可验证领域可以作为有效奖励,其表现优于模型评判,并可与人类专家注释相媲美[16] - 基于自拟评分标准的强化学习(CaT-RL)优于监督微调(SFT),当奖励来自自拟评分标准时,RL效果更佳[20] - CaT比单样本和选择基线模型能产生更好的参考估计,在推理时间与其他方案比较中,CaT产生的参考估计最强且用途最广泛[20] - CaT会随着rollout数量G的增加而扩展,在MATH-500上扩展是单调的,而在HealthBench上,CaT在大约4次rollout后达到平台期[22] 研究团队与影响 - 论文作者全部都在Meta超级智能实验室做过研究,近期发文频率很快[4] - 这项研究引起了广泛讨论,被认为解决了RL中缺少监督的难题,是一种优雅的解决方案,对于在验证成本高昂或无法验证的领域来说,可能是重要的一步[5][6]