Workflow
Thyme
icon
搜索文档
开源复现o3图像思考!快手让AI不再被动看图,模型自主生成代码调用工具
量子位· 2025-08-21 04:23
核心观点 - Kwai Keye团队提出Thyme新范式,赋予多模态大模型"超越图像思考"的能力,通过生成并执行代码调用工具完成复杂图像处理和数学计算[1][3] - Thyme在20个基准测试中表现优异,尤其在处理高分辨率图像和复杂推理任务上性能显著提升[11] 技术方案 多模态交互范式 - 核心思想:模型主动生成并执行代码调用工具,突破被动"看图"限制[3] - 功能丰富:支持裁剪、旋转、缩放、对比度增强等图像操作及复杂数学计算[4] - 高度自主:自主判断工具使用需求并动态生成代码,无需人工干预[5] 训练策略 - 两阶段训练:SFT阶段使用50万条高质量样本数据集,仅需200 GPU小时[6] - RL阶段创新: - 构建1万张高难度图像问答对增强复杂场景感知[7] - 提出GRPO-ATS算法,文本生成(τ=1)与代码生成(τ=0)采用差异化温度采样[36][37] - 采用Rabin-Karp滚动哈希算法检测重复内容,提升资源利用率[38] 配套资源 - 开源400万原始数据集及筛选标注数据[8] - 开发安全沙箱环境,自动处理代码格式、变量定义等问题[8][22] - 完整开源训练代码、模型及工具链[9] 性能表现 基准测试 - 感知任务:HRbench-4K测试中FSP指标达91.0(+5.8),FCP指标63.0(+10.8)[41] - 推理任务:MathVista测试70.0(+1.8),Logic Vista测试49.0(+9.2)[41] - 通用任务:幻觉检测aAcc指标71.0(+5.4),MMVet Hard测试58.3(+5.5)[41] 细分领域 - 自动驾驶场景:感知任务提升27.14%,推理任务提升81.57%[45] - 监控场景:感知任务提升64.99%,推理任务提升33.16%[45] - 高分辨率处理:HRbench-8K测试中FSP指标86.5(+7.7)[41] 工作流程 1 接收问题并输出推理思路[21] 2 判断复杂度决定是否生成Python代码[21] 3 简单问题直接回答,复杂任务生成代码交沙箱执行[21] 4 沙箱执行后返回结果,多轮交互直至输出最终答案[21]