当前位置: 首页 > news >正文

ControlNet on Stable Diffusion

ControlNet on Stable Diffusion

笔记来源:
1.Adding Conditional Control to Text-to-Image Diffusion Models
2.How to Use OpenPose & ControlNet in Stable Diffusion
3.ControlNet与DreamBooth:生成模型的精细控制与主体保持
4.Introduction to ControlNet for Stable Diffusion
5.Stable Diffusion — ControlNet Clearly Explained!
6.Talented Mr. 1X1: Comprehensive look at 1X1 Convolution in Deep Learning
7.ControlNet-modules-safetensors

下图由笔者参考其他内容整理而成,仅做学习使用

下图中上半部分就是Stable Diffusion的反向扩散过程,下半部分为ControlNet部分,Stable Diffusion的参数frozen,我们只训练ControlNet

condition部分要将图片使用preprocessor(openpose、normalmap、canny)预处理完成后,再用相应网络对其处理,处理结果为符合contronet所能接收的大小的feature map(本质为tensors)

左侧为Stable Diffusion,右侧为ControlNet
Controlnet前半部分直接copy SD Encoder和 Bottleneck 部分,后半部分用zero conv(1×1 conv layer)作解码(上采样)
为了能够让 condition 部分对模型的影响变大,论文中对prompt的组成进行了修改,将原有全部为文字的prompt,修改为一半prompt,一半空字符串
由于zero conv部分初始weight和bias为0,也就是说第一次训练过程,不会对copy来的SD Encoder和 Bottleneck 部分产生任何影响,只有当controlnet进行反向传播时,才会更新参数,这时就会更新SD Encoder和 Bottleneck 部分的参数

笔者个人理解
笔者之前关于SD的文章也提到一张图片对应一个概率分布,SD就是在计算估计关于所有输入图片的一个总的概率分布,这个概率分布如果接近真实概率分布(全世界所有图片的概率分布)生成的图片也就质量越高。SD如果有外来输入(这里的controlnet部分)就会对这个估计的分布有影响,当我们从这个大的概率分布中进行采样时就得到了某张图片(大的概率分布中的某个点)这个图片是在经过外来输入影响的大的概率分布中采样的,也就会符合外来输入的一些特性


了解了大致的原理,我们本地部署看看效果
stable diffusion webui + ControlNet (Extension)部署的过程在网络上相关内容很多,这里就不再展示

下图为ControlNet各个参数的简要说明

下图以Openpose为例,我们首先上传一张原图,随后对一张原图使用preprocessor(这里为openpose_full)进行处理,紧接着使用controlnet_v11将其编码为tensors用于给controlnet输入,点击openpose后的小火花生成人体姿势的估计并形成预览图,最后我们给SD输入prompt和negative prompt,SD就会根据人体姿势估计图和我们提供的文本生成相应姿势的其他人物(文本描述的)

关于如何描写prompt和negative prompt,我们请gpt给出提示


http://www.lryc.cn/news/410271.html

相关文章:

  • 源码编译安装,及nginx服务控制、监控块
  • 在react中使用wangeditor富文本
  • 拉提查合创5步玩转git工具协作代码开发
  • React特点
  • 鸿蒙(HarmonyOS)自定义Dialog实现时间选择控件
  • 学习008-02-04-08 Localize UI Elements(本地化UI元素)
  • 如何系统的学习C++和自动驾驶算法
  • typescript 定义类
  • 认证授权概述和SpringSecurity安全框架快速入门
  • docker常用命令集锦
  • 学习Java的日子 Day56 数据库连接池,Druid连接池
  • 如何实现PostgreSQL对某一张表的WAL日志进行记录
  • 机器学习数学基础(2)--最大似然函数
  • 详解 @RequestHeader 注解在 Spring Boot 中的使用
  • C# 表达式树的简介与说明
  • 【北京迅为】《i.MX8MM嵌入式Linux开发指南》-第三篇 嵌入式Linux驱动开发篇-第六十三章 输入子系统实验
  • [补题记录]Leetcode 15. 三数之和
  • 什么是sql注入攻击,如何预防介绍一下mysql中的常见数据类型
  • 史上最全的Seata教学并且连接springcloudAlibaba进行使用
  • InternLM Git 基础知识
  • 【Unity模型】古代亚洲建筑
  • 木马后门实验
  • 【React】useState:状态更新规则详解
  • C#中的异步编程:Task、Await 和 Async
  • SSRF-labs-master靶场
  • HBuilder X中配置vue-cli项目和UI库
  • 如何用PostMan按照规律进行循环访问接口
  • 稳态准直太阳光模拟器仪器光伏电池组件IV测试
  • vue3 reactive原理(二)-代理Set和Map及ref原理
  • Python自然语言处理库之NLTK与spaCy使用详解