当前位置: 首页 > news >正文

【diffusers极速入门(三)】生成的图像尺寸与 UNet 和 VAE 之间的关系

先上结论,一句话总结即: SD 图片的输入\输出尺寸(高或宽) = Unet 输入\输出的样本尺寸(高或宽) x VAE 的缩放尺寸

在使用生成模型时,特别是图像生成任务中,理解 UNet 和 VAE(变分自编码器)之间的关系是非常重要的。本文将详细介绍 UNet 和 VAE 的工作原理,并解释它们如何协同工作来生成高质量的图像。我们将以 diffusers 库为例,展示生成图像尺寸与 UNet 和 VAE 之间的关系。

什么是 UNet?

UNet 是一种卷积神经网络架构,最初设计用于生物医学图像分割。其结构类似于一个对称的 U 字形,由编码器(下采样)和解码器(上采样)组成。编码器逐步提取图像特征并缩小空间维度,解码器则将这些特征还原到原始的空间维度,同时逐步增加分辨率。

UNet 的关键特性:

  1. 对称结构:编码器和解码器对称分布。
  2. 跳跃连接:直接将编码器的中间层输出传递到解码器的对应层,保留了高分辨率特征。
  3. 多尺度特征提取:在不同尺度上提取特征,提升了网络对细节的捕捉能力。
    在这里插入图片描述

什么是 VAE(Variational AutoEncoder)?

VAE 变分自编码器是一种生成模型,通过学习输入数据的潜在表示来生成新数据。VAE 由编码器和解码器组成:

  1. 编码器:将输入图像转换为潜在空间的分布(均值和方差),下图中的 m 和 sigma。
  2. 解码器:从潜在空间的采样生成新图像。

VAE 的关键特性:

  1. 概率模型:VAE 学习输入数据的概率分布,从而生成多样化的样本。
  2. 连续潜在空间:潜在空间中的小变化会导致生成图像的小变化,具有很好的连续性。
    在这里插入图片描述

图像尺寸与 UNet 和 VAE 的关系

在图像生成任务中,输入图像的尺寸需要匹配 UNet 和 VAE 的预期输入输出尺寸。diffusers 库中的 MimicBrushPipeline 通过以下代码设置默认的图像尺寸:

height = height or self.unet.config.sample_size * self.vae_scale_factor
width = width or self.unet.config.sample_size * self.vae_scale_factor

下面详细解释为什么使用这种方式来设置默认的图像尺寸。

设置默认图像尺寸

  1. UNet 的输入尺寸要求:UNet 处理图像时,输入图像的最小尺寸需要符合其配置要求。self.unet.config.sample_size 提供了这个最小尺寸的基准值,例如 64。

  2. VAE 的缩放需求:VAE 在编码和解码过程中会对图像进行缩放处理。为了确保图像在经过多次缩放后仍能被 VAE 正确处理,需要考虑 self.vae_scale_factor,例如 8。

通过相乘,我们得到一个符合两者需求的图像尺寸:

height = 64 * 8 = 512
width = 64 * 8 = 512

这意味着默认的输入图像尺寸将是 512x512。这样的设置确保了图像在经过 VAE 的缩放处理后,仍能满足 UNet 的最小输入尺寸要求,且两者在处理过程中尺寸是对齐的。

总结

  • 理解 UNet 和 VAE 之间的关系以及它们在图像生成任务中的角色,对于高效使用 diffusers 库生成高质量图像至关重要。
  • 通过合理设置图像尺寸,我们可以确保生成过程中的每个阶段都能顺利进行,最终生成出符合预期的图像。
  • 希望本文对你理解和应用 UNet 和 VAE 以及 diffusers 库有所帮助。

相关官方文档:常用的 Unet👉 UNet2D 和 VAE 👉 AutoencoderKL

http://www.lryc.cn/news/377555.html

相关文章:

  • react实现窗口悬浮框,可拖拽、折叠、滚动
  • 52【场景作图】空间感
  • SpringBoot系列之搭建WebSocket应用
  • RK3568技术笔记十四 Ubuntu创建共享文件夹
  • JavaScript 获取地理位置 Geolocation
  • android串口助手apk下载 源码 演示 支持android 4-14及以上
  • windows11 生产力工具配置
  • Nacos配置中心不可用会有什么影响
  • AI时代下的自动化代码审计工具
  • 不懂索引,简历上都不敢写自己熟悉SQL优化
  • C# 设置PDF表单不可编辑、或提取PDF表单数据
  • 面试篇-求两个有序数组的交集
  • Web爬虫-edu_SRC-目标列表爬取
  • 云原生周刊:Harbor v2.11 版本发布 | 2024.6.17
  • 低版本火狐浏览器报错:class is a reserved identifier
  • 掌握高等数学、线性代数、概率论所需数学知识及标题建议
  • value_and_grad
  • AI 已经在污染互联网了。。赛博喂屎成为现实
  • Linux系统安装ODBC驱动,统信服务器E版安装psqlodbc方法
  • 品牌对电商平台价格的监测流程
  • osgearth提示“simple.earth: file not handled”
  • hbuilderx如何打包ios app,如何生成证书
  • 扩散模型荣获CVPR2024最佳论文奖,最新成果让评估和改进生成模型更加效率!
  • 通过CSS样式来禁用href
  • 汽车传动系统为汽车动力总成重要组成部分 我国市场参与者数量不断增长
  • 智慧校园软件解决方案:提升学校管理效率的最佳选择
  • 数据结构之B数
  • 计算机基础必须知道的76个常识!沈阳计算机软件培训
  • 7,KQM模块的驱动
  • 软件验收测试报告模版分享,如何获取专业的验收测试报告?