当前位置: 首页 > news >正文

文生图模型之Stable Diffusion

原始文章地址

autoencoder在这里插入图片描述

CLIP text encoder

tokenizer最大长度为77(CLIP训练时所采用的设置),当输入text的tokens数量超过77后,将进行截断,如果不足则进行paddings,这样将保证无论输入任何长度的文本(甚至是空文本)都得到77x768大小的特征

问题:当输出超长prompt会分段处理?每段的权重如何处理?

UNet

text condition将通过CrossAttention模块嵌入进来,此时Attention的query是UNet的中间特征,而key和value则是text embeddings。
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

SD图生图

在这里插入图片描述

SD Inpainting

第一种形式:
在这里插入图片描述
第二种形式:
在这里插入图片描述

http://www.lryc.cn/news/140305.html

相关文章:

  • Java List循环安全删除元素
  • 2023年03月 C/C++(三级)真题解析#中国电子学会#全国青少年软件编程等级考试
  • bert-base-chinese 判断上下句
  • vue3+vue-cli使用mockjs
  • Android 全局监听软键盘弹起隐藏 动态修改布局并适配无限循环的问题
  • 第 k 小整数
  • LeetCode 1448. 统计二叉树中好节点的数目:DFS
  • AR室内导航技术之技术说明与效果展示
  • 06-Numpy基础-线性代数
  • SpringBootWeb 登录认证
  • 【JVM 内存结构丨栈】
  • LeetCode 138.复制带随机指针的链表
  • 基于SSM的小说网站的设计与实现(论文+源码)_kaic
  • 【Python】代理池针对ip拦截破解
  • P1065 [NOIP2006 提高组] 作业调度方案
  • 设计模式三原则
  • dll载入时发生的事情
  • k8s-ingress-context deadline exceeded
  • css盒模型
  • cuda11.1和cuDNN v8.8.1的安装目录问题
  • 微信小程序scroll-view的触发机制
  • 为本地文件创建URL
  • UI位置与布局
  • 《存储IO路径》专题:DDIO对系统性能的影响
  • ModaHub魔搭社区:WinPlan经营大脑数据采集
  • 缓存最佳实践
  • Linux 终端命令之文件目录操作,对比Dos相关命令
  • C++学习第十八天----switch语句
  • 基于poi生成excel模板并生成下拉选择框
  • Redis五种类型