Workflow
Long-CoT SFT and RL combination
icon
搜索文档
多模态后训练反常识:长思维链SFT和RL的协同困境
机器之心· 2025-08-02 00:55
语言模型训练方法研究 - 长思维链监督微调(Long-CoT SFT)与强化学习(RL)的组合在纯语言模型中通常能实现性能叠加提升,但在多模态视觉语言模型(VLM)中可能出现协同失效甚至互相拖累的现象 [2][3] - 多模态推理评测与纯语言评测存在差异:多模态评测包含简单感知问题和复杂认知推理挑战,这种异质性是导致Long-CoT SFT和RL在多模态设置中表现不同的核心原因 [5] 难度分类与数据集构建 - 研究引入基于基线模型Qwen2.5-VL-Instruct-7B的难度分类方法,将题目分为五个级别(L1-L5),通过率从≥75%(L1)到<13%(L5) [5] - 构建了难度层级细化后的多模态推理榜单数据集,包括MathVision、MathVerse、MathVista、MMMU val和MMStar val [5] 训练方法性能分析 - Long-CoT SFT在L5级难题上表现优异,尤其擅长处理MathVision中的图文结合推理难题,但在L1级简单题上表现比基础模型更差 [7] - RL在所有难度级别(L1-L5)均能实现稳定提升,简单题不翻车,中等题表现稳健,但在L5级难题上的提升不及Long-CoT SFT [7] - Long-CoT SFT使模型输出冗余度飙升至原来的数倍,而RL保持输出文本的高效简洁 [7] 组合策略实验结果 - 五种组合方案(两阶段、交替式、渐进式、数据混合、模型合并)均未能实现"1+1>2"的效果 [9][10] - 渐进式组合显示出最大潜力,难题解决能力高于纯RL、媲美纯SFT,但仍是一种折衷,牺牲了部分简单题目的性能 [11] - 两阶段组合回答范式固化于冗长思考,性能困于SFT水平;交替式组合性能卡在两种方法之间;数据混合导致推理风格难以自适应切换;模型合并表现为性能插值而非叠加增强 [11] 其他重要发现 - 推理轨迹的质量比数据规模和模态匹配更重要:1k条高质量文本思维链数据做SFT微调的效果优于34k多模态推理数据 [17] - KL正则化项有效保持RL长稳训练,避免奖励崩溃、熵减小和响应长度剧烈波动 [17] - 简单题是"性能压舱石",纳入RL训练数据可避免丢失处理简单题的基础能力 [17] 未来研究方向 - 自适应推理:让模型对简单题给出简洁回答,对难题采用深度推理 [12] - 构建模型亲和的训练数据:考虑采用提示词工程自蒸馏等方式构建训练数据 [12] - 分层评估体系:将榜单分为不同难度题目,差异化评测和优化模型 [13]