两阶段训练策略

搜索文档
开源复现o3图像思考!快手让AI不再被动看图,模型自主生成代码调用工具
量子位· 2025-08-21 04:23
核心观点 - Kwai Keye团队提出Thyme新范式,赋予多模态大模型"超越图像思考"的能力,通过生成并执行代码调用工具完成复杂图像处理和数学计算[1][3] - Thyme在20个基准测试中表现优异,尤其在处理高分辨率图像和复杂推理任务上性能显著提升[11] 技术方案 多模态交互范式 - 核心思想:模型主动生成并执行代码调用工具,突破被动"看图"限制[3] - 功能丰富:支持裁剪、旋转、缩放、对比度增强等图像操作及复杂数学计算[4] - 高度自主:自主判断工具使用需求并动态生成代码,无需人工干预[5] 训练策略 - 两阶段训练:SFT阶段使用50万条高质量样本数据集,仅需200 GPU小时[6] - RL阶段创新: - 构建1万张高难度图像问答对增强复杂场景感知[7] - 提出GRPO-ATS算法,文本生成(τ=1)与代码生成(τ=0)采用差异化温度采样[36][37] - 采用Rabin-Karp滚动哈希算法检测重复内容,提升资源利用率[38] 配套资源 - 开源400万原始数据集及筛选标注数据[8] - 开发安全沙箱环境,自动处理代码格式、变量定义等问题[8][22] - 完整开源训练代码、模型及工具链[9] 性能表现 基准测试 - 感知任务:HRbench-4K测试中FSP指标达91.0(+5.8),FCP指标63.0(+10.8)[41] - 推理任务:MathVista测试70.0(+1.8),Logic Vista测试49.0(+9.2)[41] - 通用任务:幻觉检测aAcc指标71.0(+5.4),MMVet Hard测试58.3(+5.5)[41] 细分领域 - 自动驾驶场景:感知任务提升27.14%,推理任务提升81.57%[45] - 监控场景:感知任务提升64.99%,推理任务提升33.16%[45] - 高分辨率处理:HRbench-8K测试中FSP指标86.5(+7.7)[41] 工作流程 1 接收问题并输出推理思路[21] 2 判断复杂度决定是否生成Python代码[21] 3 简单问题直接回答,复杂任务生成代码交沙箱执行[21] 4 沙箱执行后返回结果,多轮交互直至输出最终答案[21]
思维链监督和强化的图表推理,7B模型媲美闭源大尺寸模型
机器之心· 2025-08-01 04:23
核心观点 - Chart-R1模型通过强化学习的微调方法(R1-Style)在图表推理领域取得突破,结合思维链监督和数值敏感的强化学习微调,实现复杂图表推理能力 [2] - 该模型在数学推理和代码智能方面表现优异,但在通用多模态数据上的应用仍需进一步研究 [2] - Chart-R1的成功表明,即使是参数规模较小的模型也能在特定领域媲美大型闭源模型,为构建高效专业领域AI模型提供经验 [20][21] 创新点与技术突破 - **程序化数据合成技术**:利用LLM生成图表绘制代码,构建包含258k多步推理样本的ChartRQA数据集,确保数据多样性和真实性 [7] - **两阶段训练策略**: - Chart-COT阶段:通过思维链监督分解复杂图表推理任务为可理解的子任务 [13] - Chart-RFT阶段:采用数值敏感的强化学习微调(GRPO),结合软匹配和编辑距离提高准确性 [13] - 开源项目DocTron覆盖通用文档、学科公式、图表代码等场景,无需定制化模块开发 [2] 实验结果与性能表现 - **基准测试表现**: - Chart-R1-7B在CharXiv-RQ测试中达到91.04分,超越GPT-4o(85.7)和Claude-3.5-Sonnet(90.8) [12] - 在ChartQA测试中得分为46.2,接近Claude-3.5-Sonnet(60.2)和GPT-4o(47.1) [12] - 在ChartRQA(multi)测试中得分为49.93,优于Gemini-2.5-Flash(59.17)和Qwen2.5-VL-7B(40.57) [12] - **训练策略对比**: - Qwen2.5-VL-7B-SFT在ChartROA(multi)测试中仅得18.34分,而Chart-R1的RQA-SFT+QA+RQA-RL策略达到49.93分 [14] - 在复杂图表推理任务中,Chart-R1表现稳定,显著优于现有视觉语言模型 [17] 研究意义与应用前景 - 为图表理解和推理领域提供新的研究方向,解决多模态数据稀缺问题 [18][22] - 可应用于商业智能分析、科学研究数据解读、金融报告分析等场景,提升自动化分析效率 [19] - 验证了强化学习在视觉多模态推理任务中的有效性,特别是精确数值推理场景 [22]