当前位置: 首页 > news >正文

InstantX团队新作!基于端到端训练的风格转换模型CSGO

由InstantX团队、南京理工大学、北京航空航天大学以及北京大学联合提出了一种基于端到端训练的风格转换模型 CSGO,它采用独立的特征注入明确地解耦内容和风格特征。统一的 CSGO 实现了图像驱动的风格转换、文本驱动的风格化合成和文本编辑驱动的风格化合成。大量实验证明了该方法在增强图像生成中的风格控制能力方面的有效性。

CSGO 实现了高质量的(1)图像(草图和自然)驱动的风格转换、(2)文本驱动的风格化合成和(3)文本编辑驱动的风格化合成。

相关链接

项目主页-https://csgo-gen.github.io/

代码链接-https://github.com/instantX-research/CSGO

论文链接-https://arxiv.org/pdf/2408.16766

论文阅读

CSGO:文本到图像生成中的内容样式组合

摘要

扩散模型在受控图像生成中表现出卓越的能力,这进一步激发了人们对图像风格转换的兴趣。由于特定数据的稀缺,现有的工作主要集中于训练基于自由的方法(例如,图像反转)。

在本研究中,我们提出了一种用于内容-风格-风格化图像三元组的数据构建管道,可生成并自动清理风格化的数据三元组。基于此管道,我们构建了一个数据集 IMAGStyle,这是第一个包含 210k 个图像三元组的大规模风格转换数据集,可供社区探索和研究。

借助 IMAGStyle,我们提出了基于端到端训练的风格转换模型 CSGO,它采用独立的特征注入明确地解耦内容和风格特征。统一的 CSGO 实现了图像驱动的风格转换、文本驱动的风格化合成和文本编辑驱动的风格化合成。大量实验证明了我们的方法在增强图像生成中的风格控制能力方面的有效性。

方法

给定任何内容图像 C 和风格图像 S,CSGO 旨在通过将一个图像的内容与另一个图像的风格相结合来生成可信的目标图像,确保目标图像在采用所需风格的同时保持原始内容的语义。下图概述了我们的方法。它由两个关键组件组成:

  • 用于提取内容信息的内容控制,通过 Controlnet 和解耦的交叉注意模块注入基础模型;

  • 用于提取风格信息的风格控制,分别使用解耦的交叉注意模块注入 Controlnet 和基础模型。

我们与之前的研究有以下不同之处:

  1. CSGO 是一个基于端到端训练的模型,推理时无需微调。

  2. 我们不训练 UNet,因此可以保留原始文本到图像模型的生成能力。

  3. 我们的方法统一了图像驱动的风格转换、文本驱动的风格合成和文本编辑驱动的风格合成。

实验

文本到图像生成中的内容样式组合

内容和风格图像之间的循环翻译

文本到图像生成中的风格转换

文本驱动的图像编辑

结论

我们首先提出了一个用于构建内容-风格-风格化图像三元组的流水线。基于此流水线,我们构建了第一个大规模风格转换数据集 IMAGStyle,其中包含 210K 个图像三元组,涵盖了广泛的风格场景。为了验证 IMAGStyle 对风格转换的影响,我们提出了 CSGO,这是一个简单但高效的端到端训练风格转换框架,并且我们验证了所提出的 CSGO 可以在统一的框架中同时执行图像风格转换、文本驱动的风格合成和文本编辑驱动的风格合成任务。大量实验验证了 IMAGStyle 和 CSGO 对风格转换的有益效果。我们希望我们的工作能够激励研究界进一步探索风格化研究。

未来的工作。 虽然提出的数据集和框架实现了非常先进的性能,但仍有改进的空间。由于时间和计算资源的限制,我们仅构建了 210K 数据三元组。我们相信,通过扩大数据集的大小,CSGO 的风格迁移质量将会更好。同时,提出的 CSGO 框架是一个基础版本,仅验证了生成风格化数据集对风格迁移的有益影响。我们相信,通过优化风格和内容特征提取和融合方法,可以进一步提高风格迁移的质量。

http://www.lryc.cn/news/431006.html

相关文章:

  • Nginx安全性配置
  • k8s单master多node环境搭建-k8s版本低于1.24,容器运行时为docker
  • taro ui 小程序at-calendar日历组件自定义样式+选择范围日历崩溃处理
  • ARM发布新一代高性能处理器N3
  • 基于Pytorch框架的深度学习U2Net网络天空语义精细分割系统源码
  • 50ETF期权和股指期权有什么区别?ETF期权应该怎么做?
  • JS设计模式之“神奇的魔术师” - 简单工厂模式
  • 【河北航空-注册安全分析报告-无验证方式导致安全隐患】
  • 亚信安慧AntDB-T数据库内核之MVCC机制
  • 【python】socket 入门以及多线程tcp链接
  • 【ZYNQ MPSoC开发】lwIP TCP发送用于数据缓存的软件FIFO设计
  • 【TVM 教程】在 Relay 中使用外部库
  • 2024最新大厂面试:汇川嵌入式面试题及参考答案
  • tcp 流量控制
  • linux离线安装nacos
  • 云原生 | 在 Kubernetes 中使用 Cilium 替代 Calico 网络插件实践指南!
  • 【重学 MySQL】十一、SQL 概述
  • (一)模式识别——基于SVM的道路分割实验(附资源)
  • Python | Leetcode Python题解之第391题完美矩形
  • Rust模块std::thread
  • Leetcode Day20 打家劫舍
  • 云计算之数据库
  • 开发软件,什么类型的重要信息的日志要存到数据库表里面
  • websocket和轮询的区别?
  • 2024 年全国大学生数学建模竞赛(国赛)浅析
  • 持续集成与持续部署(CI/CD)的深入探讨
  • hyperf json-rpc
  • 基于SpringBoot的外卖点餐系统
  • 网络编程day02(字节序、TCP编程)
  • 萌新6:临场发挥(区间dp)