Workflow
Adobe Lightroom
icon
搜索文档
P图新手福音!智能修图Agent一句话精准调用200+专业工具,腾讯混元&厦大出品
量子位· 2025-12-26 04:24
产品核心概念与定位 - 腾讯混元与厦门大学联合推出名为JarvisEvo的统一图像编辑智能体,旨在通过模拟人类专家设计师的迭代编辑、视觉感知、自我评估和自我反思过程来编辑图片,提供比专业软件更简单、比AI修图更可控的体验[1] - 该智能体的核心理念是“像专家一样思考,像工匠一样打磨”,其不仅能使用Adobe Lightroom等工具修图,更能“看见”修图后的变化并进行自我评判,从而实现无需外部奖励的自我进化[3] 研究背景与待解决问题 - 当前基于指令的图像编辑模型在追求“专业级”体验时面临两大核心挑战:一是“指令幻觉”,即纯文本思维链推理因“看不见”中间修图结果,仅凭文本“脑补”导致事实性错误[4];二是“奖励黑客”,即在强化学习偏好对齐过程中,动态更新的策略模型容易欺骗静态的奖励模型以获取高分,而非真正提升能力[5] - JarvisEvo的推出正是为了解决上述问题[6] 核心技术机制:iMCoT - JarvisEvo引入了交互式多模态思维链机制,打破了传统“盲修”的局限[7] - 与纯文本推理不同,该机制在每一步编辑后都会生成新图像,并基于视觉反馈进行下一步推理,工作循环为“生成文本假设 -> 执行工具 -> 观察视觉结果 -> 反思决策”,确保每一步操作精准落地[8][9] - 该机制模拟了人类设计师“观察-操作-检查”的闭环工作流,整个推理过程包含视觉感知与规划、多步工具执行、自我评估和自我反思四个核心步骤[15][16][18] 核心技术机制:SEPO框架 - SEPO是JarvisEvo实现“自进化”的引擎,包含两个协同进化的优化环[11] - 编辑者优化环:模型利用自我评估分数作为内在奖励,不再依赖容易被欺骗的外部奖励模型[17][23] - 评估者优化环:利用人类标注数据持续校准模型的评估能力,防止模型在自我打分时“自欺欺人”[17][25] - 两个循环交替进行,形成“左右互搏”的进化效应,实现闭环的、可持续的自我能力提升[26] - 在编辑者优化环中,采用了选择性损失掩码技术,防止模型通过直接生成高分文本来“作弊”,迫使模型通过提升推理质量和工具使用准确性来间接获得高分[24] - 在评估者优化环中,使用包含人类专家标注的数据集来训练模型的评估能力,奖励取决于模型打分与人类专家打分的接近程度,以此校准模型的审美标准[28] 训练框架与数据 - 训练分为三阶段:第一阶段为冷启动监督微调,使用150K标注样本,目标是教会模型多模态推理语法、工具使用和初步审美评估等基本功[20] - 第二阶段为SEPO强化学习,使用20K标准指令数据,核心是引入协同编辑-评估策略优化,让模型从“会用工具”进化为“精通修图”[20] - 第三阶段为反思微调,使用5K在线生成的反思样本,目标是让模型具备“自我纠错”能力,提升处理复杂指令时的鲁棒性[20] - 团队构建了名为ArtEdit的双语专业修图数据集,包含170K样本,涵盖10大类、37个子类的专业摄影场景,并通过A2L协议集成了Adobe Lightroom中的200+个修图工具[31] - ArtEdit数据集分为专注于修图任务的ArtEdit-Lr和专注于审美评估的ArtEdit-Eval[32][35] 在线反思与自我修正能力 - JarvisEvo具备从错误中学习的能力,在训练过程中,系统会自动将低分轨迹与高分轨迹对比,生成反思数据[12] - 具体的在线反思数据生成机制是:当模型生成了一个得分显著更高的修图轨迹时,会触发反思生成,调用商业大模型作为“导师”进行归因分析,生成解释错误原因并指出正确做法的反思文本,最终构建成用于微调的反思样本[33] 实验性能与结果 - 在ArtEdit-Bench评测的L1和L2指标上,JarvisEvo相比商业级模型Nano-Banana提升了44.96%,能最大限度保留原图细节[36] - 在语义一致性和感知质量指标上全面领先,平均提升18.95%[37] - 其自我评估打分与人类主观偏好的相关性达到0.7243,超越了GPT-4o和专门的图像质量评估模型[36][38] - 在包含200个样本的人类主观评测中,JarvisEvo在与Nano-Banana的对决中取得了49%的胜率,远超对手的28%,证明其修图结果更符合人类审美[43] - 视觉效果上,JarvisEvo处理后的图像更贴合用户指令,在风格营造、细节呈现等方面表现突出[40] 未来展望与应用潜力 - “生成器-内部批评家”的协同进化范式具有强大的通用性,未来有望从修图拓展至数学推理、代码生成及长程规划等领域[44] - 团队将致力于突破当前步数限制,探索超过10步的复杂长程推理任务[45]
拒绝「盲修」:JarvisEvo 如何让 Agent 像人类一样拥有「视觉反思」能力?
机器之心· 2025-12-24 03:41
文章核心观点 - 现有基于大语言/视觉模型的图像编辑智能体存在“指令幻觉”和“盲目脑补”问题,因其缺乏视觉反馈,导致决策与结果偏离用户初衷[2] - 传统强化学习依赖静态奖励模型易导致“奖励黑客”现象,即模型学会讨好打分器而非真正提升审美[2] - JarvisEvo通过引入“内省”机制,旨在实现智能体的自我进化,使其从“执行者”转变为“思考者”,核心在于模仿人类专家的闭环工作流[2][6][8] 核心范式转移与技术支柱 - **从执行者到思考者**:JarvisEvo的核心哲学是模仿人类修图师的闭环工作流:观察->构思->尝试->评估->再调整[8] - **iMCoT(交错多模态思维链)**:将视觉反馈插入推理循环,打破黑盒,每执行一步工具(如调整色温)即生成中间渲染图,并基于当前视觉状态动态规划下一步操作[8] - **SEPO(协同编辑者-评估者策略优化)**:让模型在训练中分饰编辑者与评估者两角,形成协同进化,编辑者为获高分需提升修图质量,评估者为精准打分需提升鉴赏能力[10] - **选择性损失掩码机制**:为防止模型通过生成“满分”文本作弊,设计了SLM机制,迫使模型只能依靠推理和工具使用过程来赢得高分[10] - **On-Policy Reflection(策略内反思)**:当模型偶然修出好图(高分轨迹)而此前尝试失败(低分轨迹)时,系统会捕捉对比,并引入“导师模型”分析失败原因,生成反思数据用于微调,使模型学会“自救”[11][12] 硬核工程:数据集与训练 - **ArtEdit数据集**:为支撑系统从零构建,包含170K专业样本,覆盖10大类摄影场景,完美映射Adobe Lightroom的200+个参数,并提供修图轨迹与人类专家评分的双视角数据[14][15] - **三阶段课程学习**:训练采用渐进式课程,包括冷启动(监督微调)以学会工具使用和语法,以及协同进化(强化学习/SEPO)阶段,让模型在自我探索中通过“左右互搏”提升上限[14][15] 实验结果与性能表现 - **ArtEdit-Bench评测统治力**:在评测中,JarvisEvo的斯皮尔曼等级相关系数达到0.7243,皮尔逊线性相关系数达到0.7116,均超过包括Gemini-2.5-Flash在内的其他模型[18] - **内容保真度**:相比商业模型Nano-Banana,L1/L2误差降低了44.96%,意味着修图时不会破坏原图画质细节[21] - **人类偏好**:在盲测中,JarvisEvo取得了49%的胜率,远超Nano-Banana的28%[21] - **审美对齐**:JarvisEvo对图片质量的打分与人类专家的相关性超过了Gemini-2.5-Flash[21] - **细粒度专业调色优势**:得益于深度意图理解、多模态推理及自我反思闭环,在处理复杂修图需求时展现出超越当前所有商业及开源AIGC模型的显著优势[23] - **与OpenAI X Adobe PhotoShop对比**:在指令遵循和修图审美方面,JarvisEvo表现明显更好[27] 意义与前景 - **通用范式验证**:JarvisEvo的意义远超图像编辑,它验证了一种“执行者-评论家协同进化”的通用范式,该方法可复用到复杂代码生成、数学推理、机器人控制等需要长程规划的领域[29] - **智能体进化方向**:标志着智能体正从“听话的执行者”向“会反思的创作者”迈进[30]
Intel Gaining Momentum in AI PC Market: Will the Uptrend Persist?
ZACKS· 2025-06-24 14:25
公司战略与AI布局 - 公司正积极采取多项举措在AI领域建立更稳固的地位,包括与惠普等原始设备制造商合作开发新一代AI PC [1] - 惠普最新推出的EliteBook X、EliteBook Ultra和EliteBook 8等高端AI PC均搭载公司Core Ultra系列处理器 [1] - 公司与惠普共同确定了一系列能为终端用户带来显著效益的AI应用,并优化了CPU、GPU和NPU资源性能,在8款AI PC模型中测试了约12种配置 [2] 技术性能与优化 - 采用公司AI优化软件包后,微软Power BI运行速度比上一代系统快45%,Tableau业务分析解决方案运行速度提升48%,Adobe Lightroom提速32% [3] - 针对公司GPU优化的AI写作助手Writeup运行速度提升165%,AI屏幕录制工具Canvid部分功能运行速度提升223% [3] - Canvid和Writeup等原本仅限苹果用户的应用首次通过公司AI芯片在Windows PC上运行 [4] 行业趋势与市场机会 - AI正从利基能力转变为企业的关键必备组件,各行业企业都在加速整合AI以提升生产力和简化工作流程 [5] - 原始设备制造商如惠普、戴尔和联想正在开发AI PC产品线以满足市场需求 [5] - 根据Precedence Research报告,全球AI市场规模预计将从2025年的7576亿美元增长至2034年的3.68万亿美元,年复合增长率为19.2% [5] 竞争格局 - 公司在AI PC市场面临高通和AMD的激烈竞争,高通推出的Snapdragon X芯片已获得戴尔、华硕和三星等原始设备制造商的合作 [6] - AMD的Ryzen AI 300系列处理器凭借强大的AI计算和集成显卡能力,对公司的Core Ultra 9 Processor 185H等领先处理器构成挑战 [7] 财务表现与估值 - 公司股价在过去一年下跌31%,而行业整体增长11.2% [8] - 按市净率计算,公司股票目前以0.87倍账面价值交易,低于行业平均的31.65倍,价值评分为D [10] - 公司2025年和2026年每股收益预期在过去一年分别下降39.58%至0.29美元和29.36%至0.77美元 [11]