Long-CoT SFT and RL combination

搜索文档

机器之心· 2025-08-02 00:55

语言模型训练方法研究 - 长思维链监督微调（Long-CoT SFT）与强化学习（RL）的组合在纯语言模型中通常能实现性能叠加提升，但在多模态视觉语言模型（VLM）中可能出现协同失效甚至互相拖累的现象 [2][3] - 多模态推理评测与纯语言评测存在差异：多模态评测包含简单感知问题和复杂认知推理挑战，这种异质性是导致Long-CoT SFT和RL在多模态设置中表现不同的核心原因 [5] 难度分类与数据集构建 - 研究引入基于基线模型Qwen2.5-VL-Instruct-7B的难度分类方法，将题目分为五个级别（L1-L5），通过率从≥75%（L1）到<13%（L5） [5] - 构建了难度层级细化后的多模态推理榜单数据集，包括MathVision、MathVerse、MathVista、MMMU val和MMStar val [5] 训练方法性能分析 - Long-CoT SFT在L5级难题上表现优异，尤其擅长处理MathVision中的图文结合推理难题，但在L1级简单题上表现比基础模型更差 [7] - RL在所有难度级别（L1-L5）均能实现稳定提升，简单题不翻车，中等题表现稳健，但在L5级难题上的提升不及Long-CoT SFT [7] - Long-CoT SFT使模型输出冗余度飙升至原来的数倍，而RL保持输出文本的高效简洁 [7] 组合策略实验结果 - 五种组合方案（两阶段、交替式、渐进式、数据混合、模型合并）均未能实现"1+1>2"的效果 [9][10] - 渐进式组合显示出最大潜力，难题解决能力高于纯RL、媲美纯SFT，但仍是一种折衷，牺牲了部分简单题目的性能 [11] - 两阶段组合回答范式固化于冗长思考，性能困于SFT水平；交替式组合性能卡在两种方法之间；数据混合导致推理风格难以自适应切换；模型合并表现为性能插值而非叠加增强 [11] 其他重要发现 - 推理轨迹的质量比数据规模和模态匹配更重要：1k条高质量文本思维链数据做SFT微调的效果优于34k多模态推理数据 [17] - KL正则化项有效保持RL长稳训练，避免奖励崩溃、熵减小和响应长度剧烈波动 [17] - 简单题是"性能压舱石"，纳入RL训练数据可避免丢失处理简单题的基础能力 [17] 未来研究方向 - 自适应推理：让模型对简单题给出简洁回答，对难题采用深度推理 [12] - 构建模型亲和的训练数据：考虑采用提示词工程自蒸馏等方式构建训练数据 [12] - 分层评估体系：将榜单分为不同难度题目，差异化评测和优化模型 [13]

Adaptive reasoning

Artificial Intelligence

Qwen2.5-VL-Instruct-7B

Long-CoT SFT and RL combination

Adaptive reasoning

Artificial Intelligence

Qwen2.5-VL-Instruct-7B