产品核心概念与定位 - 腾讯混元与厦门大学联合推出名为JarvisEvo的统一图像编辑智能体,旨在通过模拟人类专家设计师的迭代编辑、视觉感知、自我评估和自我反思过程来编辑图片,提供比专业软件更简单、比AI修图更可控的体验[1] - 该智能体的核心理念是“像专家一样思考,像工匠一样打磨”,其不仅能使用Adobe Lightroom等工具修图,更能“看见”修图后的变化并进行自我评判,从而实现无需外部奖励的自我进化[3] 研究背景与待解决问题 - 当前基于指令的图像编辑模型在追求“专业级”体验时面临两大核心挑战:一是“指令幻觉”,即纯文本思维链推理因“看不见”中间修图结果,仅凭文本“脑补”导致事实性错误[4];二是“奖励黑客”,即在强化学习偏好对齐过程中,动态更新的策略模型容易欺骗静态的奖励模型以获取高分,而非真正提升能力[5] - JarvisEvo的推出正是为了解决上述问题[6] 核心技术机制:iMCoT - JarvisEvo引入了交互式多模态思维链机制,打破了传统“盲修”的局限[7] - 与纯文本推理不同,该机制在每一步编辑后都会生成新图像,并基于视觉反馈进行下一步推理,工作循环为“生成文本假设 -> 执行工具 -> 观察视觉结果 -> 反思决策”,确保每一步操作精准落地[8][9] - 该机制模拟了人类设计师“观察-操作-检查”的闭环工作流,整个推理过程包含视觉感知与规划、多步工具执行、自我评估和自我反思四个核心步骤[15][16][18] 核心技术机制:SEPO框架 - SEPO是JarvisEvo实现“自进化”的引擎,包含两个协同进化的优化环[11] - 编辑者优化环:模型利用自我评估分数作为内在奖励,不再依赖容易被欺骗的外部奖励模型[17][23] - 评估者优化环:利用人类标注数据持续校准模型的评估能力,防止模型在自我打分时“自欺欺人”[17][25] - 两个循环交替进行,形成“左右互搏”的进化效应,实现闭环的、可持续的自我能力提升[26] - 在编辑者优化环中,采用了选择性损失掩码技术,防止模型通过直接生成高分文本来“作弊”,迫使模型通过提升推理质量和工具使用准确性来间接获得高分[24] - 在评估者优化环中,使用包含人类专家标注的数据集来训练模型的评估能力,奖励取决于模型打分与人类专家打分的接近程度,以此校准模型的审美标准[28] 训练框架与数据 - 训练分为三阶段:第一阶段为冷启动监督微调,使用150K标注样本,目标是教会模型多模态推理语法、工具使用和初步审美评估等基本功[20] - 第二阶段为SEPO强化学习,使用20K标准指令数据,核心是引入协同编辑-评估策略优化,让模型从“会用工具”进化为“精通修图”[20] - 第三阶段为反思微调,使用5K在线生成的反思样本,目标是让模型具备“自我纠错”能力,提升处理复杂指令时的鲁棒性[20] - 团队构建了名为ArtEdit的双语专业修图数据集,包含170K样本,涵盖10大类、37个子类的专业摄影场景,并通过A2L协议集成了Adobe Lightroom中的200+个修图工具[31] - ArtEdit数据集分为专注于修图任务的ArtEdit-Lr和专注于审美评估的ArtEdit-Eval[32][35] 在线反思与自我修正能力 - JarvisEvo具备从错误中学习的能力,在训练过程中,系统会自动将低分轨迹与高分轨迹对比,生成反思数据[12] - 具体的在线反思数据生成机制是:当模型生成了一个得分显著更高的修图轨迹时,会触发反思生成,调用商业大模型作为“导师”进行归因分析,生成解释错误原因并指出正确做法的反思文本,最终构建成用于微调的反思样本[33] 实验性能与结果 - 在ArtEdit-Bench评测的L1和L2指标上,JarvisEvo相比商业级模型Nano-Banana提升了44.96%,能最大限度保留原图细节[36] - 在语义一致性和感知质量指标上全面领先,平均提升18.95%[37] - 其自我评估打分与人类主观偏好的相关性达到0.7243,超越了GPT-4o和专门的图像质量评估模型[36][38] - 在包含200个样本的人类主观评测中,JarvisEvo在与Nano-Banana的对决中取得了49%的胜率,远超对手的28%,证明其修图结果更符合人类审美[43] - 视觉效果上,JarvisEvo处理后的图像更贴合用户指令,在风格营造、细节呈现等方面表现突出[40] 未来展望与应用潜力 - “生成器-内部批评家”的协同进化范式具有强大的通用性,未来有望从修图拓展至数学推理、代码生成及长程规划等领域[44] - 团队将致力于突破当前步数限制,探索超过10步的复杂长程推理任务[45]
P图新手福音!智能修图Agent一句话精准调用200+专业工具,腾讯混元&厦大出品