P图新手福音,智能修图Agent一句话精准调用200+专业工具,腾讯混元&厦大出品
腾讯控股腾讯控股(HK:00700) 36氪·2025-12-26 07:11

产品发布与核心定位 - 腾讯混元与厦门大学联合推出名为JarvisEvo的统一图像编辑智能体,旨在通过模拟人类专家设计师的迭代编辑、视觉感知、自我评估和自我反思过程来实现专业级“修图” [1] - 该产品定位为比专业软件更简单、比AI修图更可控的图像编辑解决方案,其目标是实现“像专家一样思考,像工匠一样打磨”的修图体验 [3] 技术架构与核心创新 - 引入交互式多模态思维链机制,打破了传统“盲修”局限,模型在每一步编辑后都会生成新图像并基于视觉反馈进行下一步推理,工作循环为“生成文本假设 -> 执行工具 -> 观察视觉结果 -> 反思决策” [5][8][9] - 提出协同编辑-评估策略优化框架,该框架包含两个协同进化的优化环:编辑者优化环利用自我评估分数作为内在奖励,评估者优化环则利用人类标注数据持续校准模型的评估能力 [6][17] - 具备在线反思与自我修正能力,系统在训练中自动对比低分与高分轨迹以生成反思数据,使模型能够从错误中学习并习得自我纠错能力 [7][24] 训练流程与数据基础 - 训练采用三阶段流水线:第一阶段为冷启动监督微调,使用150K标注样本教会模型多模态推理、工具使用等基本功 [12] - 第二阶段为在线策略优化,使用20K标准指令数据并引入协同编辑-评估策略优化框架,使模型从工具使用者进化为精通修图者 [14] - 第三阶段为反思微调,使用5K在线生成的反思样本,这是模型获得“自我纠错”能力的关键 [15] - 为支撑训练,团队构建了ArtEdit数据集,这是一个包含170K样本的双语专业修图数据集,覆盖10大类摄影场景,并集成了Adobe Lightroom中的200+个修图工具 [25] 性能表现与评估结果 - 在ArtEdit-Bench评测中,JarvisEvo在L1和L2指标上相比商业级模型Nano-Banana提升了44.96% [27] - 在语义一致性和感知质量指标上全面领先,平均提升18.95% [28] - 其打分与人类主观偏好的相关性为0.7243,超越了GPT-4o和专门的图像质量评估模型 [27][28] - 在包含200个样本的人类主观评测中,JarvisEvo在与Nano-Banana的对决中取得了49%的胜率,远超对手的28% [33] - 视觉效果对比显示,JarvisEvo处理后的图像更贴合用户指令,在风格营造、细节呈现等方面表现突出 [30] 未来展望与应用潜力 - “生成器-内部批评家”的协同进化范式具有强大通用性,未来有望从修图拓展至数学推理、代码生成及长程规划等领域 [33] - 团队将致力于突破当前步数限制,探索超过10步的复杂长程推理任务 [34]