当前位置: 首页 > news >正文

影楼精修-智能修图Agent

今天给大家介绍一篇令人惊喜的论文《JarvisArt: Liberating Human Artistic Creativity via an Intelligent Photo Retouching Agent》

论文地址:https://arxiv.org/pdf/2506.17612

Code(暂无代码):https://github.com/LYL1015/JarvisArt

项目主页:https://jarvisart.vercel.app/

国内主页:https://www.jarvisart.site/

这篇论文最大的亮点是给大家介绍了一个智能修图Agent:JarvisArt,它是一种由多模态大型语言模型(MLLM)驱动的智能照片修图代理,旨在通过理解和模仿专业艺术家的推理过程,实现高质量的图像编辑。个人认为这也是修图行业的未来趋势,未来的修图将会是一个基于语音+文字交互的Agent,而这个论文将这个未来变得越来越近。

JarvisArt这个Agent可以实现什么功能?用户如何使用?

答案很简单,用户输入一张图,然后输入修图的简单描述prompt,JarvisArt会使用MLLM对prompt进行分析,比如调色分析,最终得出用户输入图需要进行的调色步骤和指令,这些指令将包含lightroom的各项调色功能参数,将这些指令下发给Lightroom的200+工具,由工具执行对用户原图进行调色,最终得到调色效果图;

项目界面如下图所示:

创新点

这篇论文创新点总结:

  1. 多模态大语言模型驱动(MLLM-driven)

    1. 支持图像 + 文本输入;

    2. 使用自然语言和区域框等多模态交互方式。

  2. 模仿专业修图师的思维过程

    1. 采用 Chain-of-Thought(CoT)训练模型先“思考”如何修图,再给出参数操作。

  3. 与 Lightroom 集成

    1. 通过提出 Agent-to-Lightroom (A2L) Protocol,让智能体能调用超过 200 项 Lightroom 操作指令,进行非破坏性编辑。

方案流程

JarvisArt 的总体流程可分为三大模块 + 一条训练主线:

1.多模态上下文理解(Multi-modal Context Understanding)

  • 输入:用户图像、自然语言指令、可选区域框或笔刷标记;

  • 模型通过图像 + 文本联合理解,明确目标风格、区域及期望效果;

  • 示例指令:“请使眼睛更亮,在框 <box>[x1,y1,x2,y2]</box> 内增强发质”

2.策略推理与参数规划(Strategic Reasoning)

  • 使用 Chain-of-Thought 思维链结构

    • <think> 标签内写出模型的修图思路,如先调色温再调整曝光等;

  • 生成的 reasoning 过程符合摄影美学和人类逻辑。

3.工具编排与操作执行(Tool Orchestration)

  • 将上述思路转化为 Lightroom 的操作指令:

    • <answer> 标签内为一组 Lightroom 参数配置(称为 ROC 文件);

    • 支持多种类型的局部蒙版(径向、线性、人物、颜色等);

  • 最终由 JarvisArt 调用 A2L 协议将参数发送给 Lightroom 实际执行。

算法层面上,JarvisArt实现了这样一个函数:

两阶段训练流程(核心算法机制)

Ⅰ. CoT SFT:链式思维的监督微调
  • 基于人工构造的 CoT 注释训练模型建立初步的:

    • 指令理解能力;

    • 编辑逻辑;

    • Lightroom 操作熟练度。

Ⅱ. GRPO-R:基于奖励的强化优化策略
  • 提出新的 Group Relative Policy Optimization for Retouching 方法,结合三类奖励:

    • 格式奖励:结构化输出格式是否规范;

    • 参数匹配奖励(ROA):是否选对工具、设置合适参数;

    • 感知质量奖励(PQ):编辑后图片是否视觉美观、保留内容。

MMArt-55K 数据集

论文研究团队构建了MMArt-55K 数据集(5K标准 + 50K思维链样本)。

数据生成管道如下图所示:

  • 图像对和Lightroom配置生成:从PPR10K、Adobe Lightroom社区和授权的开源集合中获取原始图像Isrc,创建多样化的全球和本地艺术预设库。使用Qwen2.5-VL-72B进行多模态角色扮演和Grounding DINO进行精确区域定位,模拟专家级编辑,生成图像对和Lightroom配置ROC文件。每个样本数据表示为<Isrc,Itgt,Q,C,O>,其中Isrc表示原始图像,Itgt表示目标图像,Q是用户指令,C是用标签包装的CoT推理,O是标签内的修图操作配置ROC文件,这些文件是lightroom可执行的操作文件;

该管道按以下步骤进行:1)策划多样化的源目标示例,涵盖不同的场景和风格,以及相应的Lightroom配置;2)生成反映用户意图的自然语言指令;3)生成逐步的推理痕迹。

  • 用户指令生成:为了模拟多样化的编辑意图,使用Qwen2.5-VL-72B和一个角色扮演提示将每个<Isrc,Itgt,O>三元组转换为场景级和区域级指令Q,覆盖简单的全局编辑和精确的局部调整。

  • 推理过程生成:对于每个样本四元组<Isrc,Itgt,Q,O>,应用QVQ-max的先进视觉推理生成初始CoT注释。为了消除冗余并强制人类般的连贯性,随后使用Qwen2.5-VL-72B通过迭代多模态提示细化这些痕迹,产生简洁、上下文丰富的推理过程C。

上面就是这篇文章的介绍,目前代码尚未开源,但论文为我们提供了一套可行的方案思路,修图Agent是未来趋势,以像素蛋糕为例,目前像素蛋糕的各项修图功能已经基本完善,完全可以基于这些功能,构建数据集,进而构建自有的修图Agent,届时将会给修图行业带来新的用户体验!

http://www.lryc.cn/news/580074.html

相关文章:

  • Python-将多张图片合并成一张图片调整指定区域的颜色选框工具
  • 应急响应靶场——web3 ——知攻善防实验室
  • 【Unity开发】Unity实现glb模型上传到场景中使用功能
  • 秘塔AI搜索的通过Prompt生成互动式网页探索(二)
  • python脚本编程:使用BeautifulSoup爬虫库获取热门单机游戏排行榜
  • Android发展历程
  • 面试版-前端开发核心知识
  • Oracle如何使用序列 Oracle序列使用教程
  • Java 大视界 -- Java 大数据实战:智能安防入侵检测的特征工程与模型融合全解析
  • 硬件嵌入式学习路线大总结(一):C语言与linux。内功心法——从入门到精通,彻底打通你的任督二脉!
  • Java教程——线程池和future
  • Spring Boot 应用启动时,端口 8080 已被其他进程占用,怎么办
  • 批量PDF转换工具,一键转换Word Excel
  • Jenkins 介绍
  • 后端密码加密:守护用户数据的钢铁长城
  • [尚庭公寓]06-Redis快速入门
  • 通过 Ansys Discovery CFD 仿真探索电池冷板概念
  • Excel 如何进行多条件查找或求和?
  • WPF 右键菜单 MenuItem 绑定图片时只显示最后一个 Icon
  • 深度分析:Microsoft .NET Framework System.Random 的 C++ 复刻实现
  • c# 使用GADL: Can‘t load requested DLL错误处理
  • PixiJS教程(004):点击事件交互
  • gic 中断触发类型
  • Python 中线程和进程在实际项目使用中的区别和联系
  • FastAPI 小白教程:从入门级到实战(源码教程)
  • 基于Docker构建OrangePi5 SDK环境
  • 使用mindie:2.0.RC2-800I-A2-py311-openeuler24.03-lts制作一个通用的模型推理性能测试的镜像
  • Windows 10/11 PC平台关闭禁用系统自动上传相关隐私数据手册
  • TDengine STMT2 API 使用指南
  • HarmonyOS-ArkUI 手势系列4--多层级手势