当前位置: 首页 > news >正文

InstantID作者的风格保持新项目InstantStyle发布,一个强化版的IPapadter来了!

之前已经和大家介绍过InstantID相关相关的文章,感兴趣的小伙伴可以点击下面链接进行阅读~ 

​​​​​​​​​​​​​无缝衔接Stable Diffusion,一张照片几秒钟就能生成个性化图片-InstantID_instant-id 模型-CSDN博客

今天向大家介绍InstantID作者的新项目-InstantStyle,一个强化版的IPapadter。一定程度解决了风格泄露的问题,同时也避免了繁琐的权重调整。

InstantStyle是一个通用框架,它采用了两种简单而有效的技术来实现从参考图像中有效地分离风格和内容。

相关链接

论文链接:https://arxiv.org/pdf/2404.02733.pdf 项目地址:https://github.com/InstantStyle/InstantStyle

论文阅读

摘要

基于调整自由扩散的模型在图像个性化和定制领域显示出巨大的潜力。然而,尽管取得了显著进展,目前的模式仍在继续努力应对制作风格一致性的几个复杂挑战图像生成。

首先,“风格”的概念本质上是不确定的,包含了多种元素,如颜色、材料、氛围、设计和结构等。其次,基于反演的方法容易出现风格退化,往往导致损失细粒度细节。最后,基于适配器的方法经常需要对每个参考图像进行细致的权重调整,以实现风格强度和文本可控性之间的平衡。

在本文中,我们从研究几个引人注目但经常被忽视的问题开始观察。然后我们介绍InstantStyle,框架,旨在通过实施两个关键来解决这些问题 策略:

  • 一种直接的机制,将风格和内容与特征空间内的参考图像解耦,基于假设同一空间内的特征可以添加到或彼此相减。

  • 参考图像特征的注入专门放入样式特定的块中,从而防止样式泄漏和避免了繁琐的权重调整的需要,这通常是参数较多的设计的特点。

我们的工作表现出卓越视觉风格化的结果,在风格的强度和文本元素的可控性之间取得最佳平衡。

方法

InstantStyle的IP-Adapter概述:有11个 具有SDXL的Transformer块,4个用于下采样块,1个用于中间块,6个用于上采样块。第4块和第6块分别对应于布局和样式。大多数时候,第6个块足以捕捉风格,第4个块只有在在某些情况下,布局是样式的一部分。此外,还可选择使用CLIP的特征,以明确地从特征空间中减去内容。

实验

定性结果

给定单一风格的参考图像而不同提示,作品达到高风格一致性生成。

给定单一风格的参考图像和不同的提示,实现了高度风格一致性的生成

基于图像的图像样式化

采用ControlNet (Canny)来实现基于图像的风格化与空间控制。

和之前工作比较

对于基线,将方法与最近最先进的样式化方法进行比较,包括StyleAlign,Swapping Self-Attention,B-LoRA和original IP-Adapter与权重调整。对于B-LoRA,在单参考上进行训练 使用官方培训设置样式图像。

减法的效果

从最初的IP-Adapter开始,我们通过逐步增加减法的规模来系统地删除内容。当我们通过这种方法,内容泄漏的问题得到了有效的缓解。

每种策略的效果

以原始IP-Adapter为基准:

  • 从图像嵌入中减去内容嵌入,减轻了内容泄漏,但是仍然需要手动调整重量。

  • 只在样式块中注入图像特征表现最好。

  • 在样式块和布局块中注入图像特征可以处理一些特殊的情况,其中空间构成也是一种风格。

总结

这项工作中提出一个通用框架-InstantStyle,探索了两个从参考图像中获取风格和内容的简单而有效的技术。InstantStyle揭示了特定注意力层的特征,从ground-up已经证明,并非所有层的贡献都是相等的,这些见解可以启发后续模型的训练。适配器和LoRA方法可以从参数的减少中受益,以减轻过拟合和防止不必要的信息泄露。

http://www.lryc.cn/news/331899.html

相关文章:

  • 【Java程序员面试专栏 综合面试指南】5年资深程序员面试指南
  • echart 仪表盘实现指针的渐变色及添加图片
  • C#面试题目含参考答案(一)
  • 【Canvas技法】图解绘制圆弧的重要函数 arc(x,y,r,startAngle,endAngle,clockWise)
  • vulhub中Apache Solr 远程命令执行漏洞复现(CVE-2019-0193)
  • 水泥5G智能制造工厂数字孪生可视化平台,推进水泥行业数字化转型
  • vue 一个简单实例化Vue.js 是一个流行的前端框架,如何创建一个基本的计数器应用
  • 1.k8s架构
  • 【Linux】详解动态库链接和加载对可执行程序底层的理解
  • 中文Mistral模型介绍(Chinese-Mistral)——中文大语言模型
  • yolo v5 中 letterbox对不规则矩形框的输入调整
  • STL是什么?如何理解STL?
  • 【Spring篇】Spring IoC DI
  • Python语言例题集(010)
  • redis---主从复制
  • 搜索引擎-03-搜索引擎原理
  • mysql语句学习
  • 【Apache Doris】周FAQ集锦:第 1 期
  • Windows创建远程线程学习
  • 使用c语言libexpat开源库解析XML数据
  • 51单片机入门_江协科技_19~20_OB记录的笔记
  • 基于k8s的高性能综合web服务器搭建
  • Folder Icons for Mac v1.8 激活版文件夹个性化图标修改软件
  • Gitee上传私有仓库
  • HTMLCSSJS
  • 第14章 数据结构与集合源码
  • 分享react+three.js展示温湿度采集终端
  • 易宝OA ExecuteSqlForDataSet SQL注入漏洞复现
  • C++语言学习(二)——⭐缺省参数、函数重载、引用
  • qt通过setProperty设置样式表笔记