POLAR(策略判别学习)

搜索文档
奖励模型也能Scaling!上海AI Lab突破强化学习短板,提出策略判别学习新范式
量子位· 2025-07-11 04:00
强化学习与奖励模型 - 强化学习已成为AI迈向AGI进程中的关键技术节点,改变了大语言模型的后训练范式 [1] - 奖励模型的设计与训练是制约后训练效果和模型能力提升的瓶颈,缺乏系统性的预训练和扩展方法 [2] - 传统奖励模型基于绝对偏好,难以灵活应对不同定制化场景 [7] POLAR新范式 - POLAR是一种与绝对偏好解耦的奖励建模新范式,具备可扩展性和强泛化能力 [3] - POLAR根据参考答案为模型输出打分,可灵活适配不同风格的定制化需求 [5][7] - POLAR能处理开放问题和闭式问题,提供细粒度的偏好区分 [11] - POLAR完美契合强化微调框架(RFT),使通用场景应用成为可能 [14] POLAR训练方法 - POLAR通过对比学习衡量训练策略与目标策略之间的距离作为奖励信号 [21] - 预训练阶段使用自动化合成数据构建,从131个Base LLM和53个Chat LLM中采样 [22] - POLAR-1.8B使用0.94T Token预训练数据,POLAR-7B使用3.6T Token [23] - 预训练后使用少量偏好数据对齐人类偏好 [23][24] POLAR性能表现 - POLAR展现出Scaling效应,验证集损失随模型参数和计算量增加呈幂律关系下降 [28][29] - POLAR-1.8B在STEM任务中超越最佳基线24.9个百分点,POLAR-7B超越26.2个百分点 [32] - POLAR-1.8B仅1.8B参数即可与27B和72B参数的奖励模型相当 [32] - POLAR-7B微调的Llama-3.1-8B在所有基准测试中平均提升9.0% [34]