当前位置：首页 > news >正文

【SD】深入理解Stable Diffusion与ComfyUI的使用

news 2025/8/27 0:34:06

【SD】深入理解Stable Diffusion与ComfyUI的使用

- - 1. Stable Diffusion（SD）原理概述
  - 2. 各部件详解
  - 3. SD的工作流程
  - 4. ComfyUI与SD的结合
  - 5. 总结

在这里插入图片描述

1. Stable Diffusion（SD）原理概述

整体结构：SD不是单一模型，而是由三个模型组成，包括文本编码器（Clip）、2. 生成模型（unit）、变分自编码器（VAE）。
输入输出：最基础的输入为文本和随机变量（Latent Vector），输出为图片。

2. 各部件详解

文本编码器（Clip）

专门为SD设计的，采用transformer结构。
训练步骤包括：
限制性预训练：使用图片和文本描述数据集，训练文本编码器和图片编码器，使输出向量尽可能接近。
进一步训练：使用物体名称和描述，训练文本编码器解码出图片含义。

生成模型（unit）

加噪降噪过程：通过VAE的encoder将图片转换成与Latent Vector相同大小的格式，然后逐步加噪并降噪，生成中间结果。

变分自编码器（VAE）

包括编码器和解码器，将图片编码成较小格式，再解码回原大小，训练目标是最小化原始图片与解码结果的差异。
利用VAE可以从噪声中生成图片，即输入随机噪声至解码器，生成图片。

3. SD的工作流程

文本通过文本编码器转换为向量。
向量与随机变量结合，控制生成内容的随机性。
使用unit进行加噪降噪，生成中间结果。
中间结果通过VAE解码器还原成最终图片。

4. ComfyUI与SD的结合

ComfyUI用于低显存生成图片，但具体如何结合SD的原理和ComfyUI的操作未在文本中详述。

5. 总结

SD通过三个模型的协同工作，实现了文本到图片的生成。
Clip作为文本编码器，负责将文本转换为向量。
Unit负责生成过程的加噪和降噪，VAE则用于图片的编码和解码，最终还原成清晰图片。
整个流程涉及文本处理、随机性控制、图片生成和还原，是一个复杂但高效的生成系统。

查看全文

http://www.lryc.cn/news/404225.html

Linux 12：多线程2

Android RSA 加解密

类与对象-多态-案例3-电脑组装具体实现

try-with-resources 语句的用途和优点有哪些，它如何自动管理资源？

GraphRAG参数与使用步骤 | 基于GPT-4o-mini实现更便宜的知识图谱RAG

/秋招突击——7/21——复习{堆——数组中的第K大元素}——新作{回溯——全排列、子集、电话号码的字母组合、组合总和、括号生成}

matlab 异常值检测与处理——Robust Z-score法

Ubuntu 20安装JDK17和MySQL8.0

DC-1靶场打靶第一次！！！！冲冲冲！

【LeetCode】填充每个节点的下一个右侧节点指针 II

mac无法清空废纸篓怎么办 mac废纸篓清空了如何找回 cleanmymac误删文件怎么恢复

Python酷库之旅-第三方库Pandas(036)

Python爬虫（2） --爬取网页页面

【iOS】——探究isKindOfClass和isMemberOfClass底层实现

Python 热门面试题（七）

STM32项目分享：智能宠物喂食系统

数据结构——栈的实现（java实现）与相应的oj题

linux修改时区为CST

【Spring Security】初识Spring Security

配置单区域OSPF

SQL中的游标是什么？

7. LangChain4j如何使用统一api调用？

RPM、YUM 安装 xtrabackup 8 （mysql 热备系列一）包含rpm安装 mysql 8 配置主从

maven项目打成可运行的jar及pom中的依赖一同打包

Gettler‘s Screep World 笔记 Ⅰ

【SD】深入理解Stable Diffusion与ComfyUI的使用

1. Stable Diffusion（SD）原理概述

2. 各部件详解

3. SD的工作流程

4. ComfyUI与SD的结合

5. 总结

相关文章：