文章核心观点 - 现有基于大语言/视觉模型的图像编辑智能体存在“指令幻觉”和“盲目脑补”问题,因其缺乏视觉反馈,导致决策与结果偏离用户初衷[2] - 传统强化学习依赖静态奖励模型易导致“奖励黑客”现象,即模型学会讨好打分器而非真正提升审美[2] - JarvisEvo通过引入“内省”机制,旨在实现智能体的自我进化,使其从“执行者”转变为“思考者”,核心在于模仿人类专家的闭环工作流[2][6][8] 核心范式转移与技术支柱 - 从执行者到思考者:JarvisEvo的核心哲学是模仿人类修图师的闭环工作流:观察->构思->尝试->评估->再调整[8] - iMCoT(交错多模态思维链):将视觉反馈插入推理循环,打破黑盒,每执行一步工具(如调整色温)即生成中间渲染图,并基于当前视觉状态动态规划下一步操作[8] - SEPO(协同编辑者-评估者策略优化):让模型在训练中分饰编辑者与评估者两角,形成协同进化,编辑者为获高分需提升修图质量,评估者为精准打分需提升鉴赏能力[10] - 选择性损失掩码机制:为防止模型通过生成“满分”文本作弊,设计了SLM机制,迫使模型只能依靠推理和工具使用过程来赢得高分[10] - On-Policy Reflection(策略内反思):当模型偶然修出好图(高分轨迹)而此前尝试失败(低分轨迹)时,系统会捕捉对比,并引入“导师模型”分析失败原因,生成反思数据用于微调,使模型学会“自救”[11][12] 硬核工程:数据集与训练 - ArtEdit数据集:为支撑系统从零构建,包含170K专业样本,覆盖10大类摄影场景,完美映射Adobe Lightroom的200+个参数,并提供修图轨迹与人类专家评分的双视角数据[14][15] - 三阶段课程学习:训练采用渐进式课程,包括冷启动(监督微调)以学会工具使用和语法,以及协同进化(强化学习/SEPO)阶段,让模型在自我探索中通过“左右互搏”提升上限[14][15] 实验结果与性能表现 - ArtEdit-Bench评测统治力:在评测中,JarvisEvo的斯皮尔曼等级相关系数达到0.7243,皮尔逊线性相关系数达到0.7116,均超过包括Gemini-2.5-Flash在内的其他模型[18] - 内容保真度:相比商业模型Nano-Banana,L1/L2误差降低了44.96%,意味着修图时不会破坏原图画质细节[21] - 人类偏好:在盲测中,JarvisEvo取得了49%的胜率,远超Nano-Banana的28%[21] - 审美对齐:JarvisEvo对图片质量的打分与人类专家的相关性超过了Gemini-2.5-Flash[21] - 细粒度专业调色优势:得益于深度意图理解、多模态推理及自我反思闭环,在处理复杂修图需求时展现出超越当前所有商业及开源AIGC模型的显著优势[23] - 与OpenAI X Adobe PhotoShop对比:在指令遵循和修图审美方面,JarvisEvo表现明显更好[27] 意义与前景 - 通用范式验证:JarvisEvo的意义远超图像编辑,它验证了一种“执行者-评论家协同进化”的通用范式,该方法可复用到复杂代码生成、数学推理、机器人控制等需要长程规划的领域[29] - 智能体进化方向:标志着智能体正从“听话的执行者”向“会反思的创作者”迈进[30]
拒绝「盲修」:JarvisEvo 如何让 Agent 像人类一样拥有「视觉反思」能力?
机器之心·2025-12-24 03:41