Implicit style-content separation using lora
1.Introduction
图像风格化,这个任务涉及根据某些风格参考改编图像的风格,这些参考可以是基于文本或基于图像的,同时保持其内容不变,内容指的是图像的语义信息和结构,而风格通常指的是视觉特征和模式,例如颜色和纹理。这是一个有挑战的任务,因为风格和内容之间的强关联导致风格转化和内容保留之间存在固有的权衡。此外有些人物也需要在图像中分离风格和内容。
在模型中嵌入视觉-语义先验,常见的技术包括微调预训练的文本到图像模型,以适应新的风格或内容,然而微调模型常常受到风格转化和内容保留之间固有权衡的影响,因为他们容易过拟合。与这些方法不同,我们通过按图像分离风格和组件来统一风格和内容的学习。这种分离是通过不易过拟合的b-lora来实现的。lora通常是通过微调基本模型来进行图像风格化,以参考一组图像,这些图像可以代表所需的风格或者内容。在sdxl中,两个特定的transformer块可以用来分离输入图像的内容和风格,并在生成图像中