Workflow
跨领域知识迁移
icon
搜索文档
混合数学编程逻辑数据,一次性提升AI多领域强化学习能力
36氪· 2025-08-14 08:05
AI大模型多领域推理研究 核心观点 - AI大模型在数学、编程和逻辑推理领域的跨领域协同训练显著提升整体性能,三领域联合训练使模型平均性能达到56.57,优于双领域组合[3][18][24] - 可验证强化学习(RLVR)技术通过定制化奖励策略和课程学习优化,展现出在多领域推理中的潜力,但需解决领域间冲突和模板一致性问题[6][21][23] 领域协同效应 - **数学与逻辑谜题的协同**:数学训练使Base模型在CountDown任务准确率提升75个百分点,同时逻辑谜题训练可迁移提升数学能力[10][15] - **代码训练的跨域泛化**:Instruct模型在代码训练后展现更强跨域能力,HumanEval任务准确率达82.93,而Base模型在域外任务性能下降[12][16] - **三领域联合优势**:Math+Code+Puzzle组合避免单领域性能塌陷,Math任务表现达49.72,Code任务达75.06,优于多数双领域组合[16][18] 训练方法与优化 - **奖励设计差异化**:二元奖励在简单任务KK上最优(准确率99.14),而复杂任务LPB需格式奖励或重缩放奖励[26] - **课程学习策略**:Policy Refresh策略使模型在6PPL阶段准确率达97.43,最终达99.71,超越标准课程学习的97.29[23][29] - **模板一致性关键**:不匹配模板导致CountDown准确率从19.36暴跌至0,R1模板下Base模型平均性能达47.84[21][24] 数据与模型表现 - **数据集规模**:实验使用Math(20k)、Code(12k)、Puzzle(7.8k)数据,采用二进制和比例奖励策略[8] - **性能对比**:Instruct模型在KK数据集准确率99.14,Zebra任务达36.20;Base模型数学单领域训练后CountDown准确率76.61[11][15] - **语言影响**:中文训练模型性能低于英文,显示语言敏感性[6]