全新开源模型复现o3视觉推理,无需大量训练即可实现深度思考
量子位·2025-09-15 03:59

模型核心突破 - 推出开源视觉语言模型Mini-o3,能够进行长达数十个步骤的深度多轮视觉推理,在训练轮次限制仅为6轮的情况下,测试阶段可将思考轮数扩展到数十轮[1][2][13] - 模型通过恰当的数据、初始化方法和强化学习微调实现长周期视觉搜索能力,无需消耗大量训练周期资源[13] - 在多个视觉搜索基准测试中达到当前最佳水平,显著优于其他开源基线模型[15][43] 技术架构与训练方法 - 采用两阶段训练流程:第一阶段为冷启动监督微调,仅使用6个人工示范样本便生成约6000条高质量推理轨迹[19][22][24] - 第二阶段实施强化学习,关键创新包括将单张图像最大像素限制从1200万降至200万,使相同上下文容量内容纳更多交互轮次[25][26][27] - 提出超轮次掩码技术,避免对达到最大交互轮次的响应进行惩罚,平衡训练效率与测试扩展性,使测试推理轨迹能延伸至数十轮[28][34][35] 数据集构建 - 专门构建视觉探测数据集VisualProbe,包含4000个训练用视觉问答对和500个测试用问答对,涵盖简单、中等、困难三个难度级别[38] - 数据集特点包括小目标、众多干扰物体和高分辨率图像,这些特性使任务更具挑战性并自然要求迭代探索和试错[39][42] 性能表现 - 在VisualProbe数据集上,Mini-o3在困难、中等、简单任务准确率分别达到48.0%、50.4%、67.0%,显著超越GPT-40的11.2%、15.4%、47.5%[40] - 在V* Bench评估中取得88.2分,优于DyFot的81.2分和Chain-of-FocusT的88.0分[40] - 消融实验显示,移除RL数据导致模型在VisualProbe-Hard上性能下降约8.6分,验证了具有挑战性的RL样本对复杂推理轨迹的重要性[45] 行业影响 - 该技术方案为多轮交互式多模态模型的开发与强化学习应用提供实用指导,相关代码已全部开源[52][53] - 模型由字节跳动与香港大学团队联合开发,团队核心成员在大型多模态模型领域有深厚积累,曾发表多项重要研究成果[54][55][58][61]