核心观点 - Chart-R1模型通过强化学习的微调方法(R1-Style)在图表推理领域取得突破,结合思维链监督和数值敏感的强化学习微调,实现复杂图表推理能力 [2] - 该模型在数学推理和代码智能方面表现优异,但在通用多模态数据上的应用仍需进一步研究 [2] - Chart-R1的成功表明,即使是参数规模较小的模型也能在特定领域媲美大型闭源模型,为构建高效专业领域AI模型提供经验 [20][21] 创新点与技术突破 - 程序化数据合成技术:利用LLM生成图表绘制代码,构建包含258k多步推理样本的ChartRQA数据集,确保数据多样性和真实性 [7] - 两阶段训练策略: - Chart-COT阶段:通过思维链监督分解复杂图表推理任务为可理解的子任务 [13] - Chart-RFT阶段:采用数值敏感的强化学习微调(GRPO),结合软匹配和编辑距离提高准确性 [13] - 开源项目DocTron覆盖通用文档、学科公式、图表代码等场景,无需定制化模块开发 [2] 实验结果与性能表现 - 基准测试表现: - Chart-R1-7B在CharXiv-RQ测试中达到91.04分,超越GPT-4o(85.7)和Claude-3.5-Sonnet(90.8) [12] - 在ChartQA测试中得分为46.2,接近Claude-3.5-Sonnet(60.2)和GPT-4o(47.1) [12] - 在ChartRQA(multi)测试中得分为49.93,优于Gemini-2.5-Flash(59.17)和Qwen2.5-VL-7B(40.57) [12] - 训练策略对比: - Qwen2.5-VL-7B-SFT在ChartROA(multi)测试中仅得18.34分,而Chart-R1的RQA-SFT+QA+RQA-RL策略达到49.93分 [14] - 在复杂图表推理任务中,Chart-R1表现稳定,显著优于现有视觉语言模型 [17] 研究意义与应用前景 - 为图表理解和推理领域提供新的研究方向,解决多模态数据稀缺问题 [18][22] - 可应用于商业智能分析、科学研究数据解读、金融报告分析等场景,提升自动化分析效率 [19] - 验证了强化学习在视觉多模态推理任务中的有效性,特别是精确数值推理场景 [22]
思维链监督和强化的图表推理,7B模型媲美闭源大尺寸模型
机器之心·2025-08-01 04:23