当前位置：首页 > news >正文

AI绘图-Stable Diffusion-WebUI的基本用法

news 2025/8/5 13:55:14

前言

WebUI中的功能十分多无法一一说明，个人多进行尝试和探索才能更加熟练工具的应用；在本章中将会介绍Stable Diffusion中WebUI的安装、常见模块介绍以及文生图、图生图的常用方法

1 WebUI安装和介绍：

1.1 安装

B站搜索秋叶，通过夸克网盘进行安装

在这里插入图片描述

视频中自带Stable Diffusion安装教程，安装完成后启动Stable Diffusion

在这里插入图片描述

名称	功能
高级选项	调整生成引擎、显存优化等，一般来说是默认设置
疑难解答	在生成图片出现错误的时候，这里进行扫描并生成错误报告
版本管理	对SD、扩展插件的版本进行升级以及管理
模型管理	对生成图像时使用到的各种模型进行管理

简易的一图流教程:

在这里插入图片描述

点击一键启动后打开浏览器

在这里插入图片描述

1.2 介绍

1.2.1 Stable Diffusion模型

选择之前下载过的模型，大模型是生成图片的基础，一般分为真实类型、3D类型、动漫类型

模型下载网站可以选择Civitai、liblib

大模型下载可以在网站的筛选器中选择checkpoint

选择好下载的模型之后，可以在模型管理中打开大模型所在的文件夹

进入文件夹后将下载好的大模型文件放入

1.2.2 VAE模型和CLIP终止层数

VAE模型：个人理解上来看与添加滤镜比较相似，一般默认选择自动

CLIP终止层数：目的是跳过一些不必要的图像生成步骤，减少设备生成时间和负担，CLIP值越低，生成的图片越符合提示词的描述

1.2.3 文生图

正向提示词框：希望在画面中出现的元素

可以在小框中输入中文，会直接翻译到正向提示词框中

提示词一栏可以提供思路以及加载扩展模型

正向提示词建议书写结构

提示词的分隔与权重：一般使用英文‘,’进行分隔，权重有两种写法：
写法一：(1 girl:1.5)：表示增强提示词的权重到1.5倍
写法二：(((1 gril)))：每套一层括号，提示词权重增强1.1倍，表示1.331倍权重

提示词的其他语法：
[girl|cat]：表示猫女，女孩与猫融合
[cat:dog:20]：表示前20步渲染猫，之后开始被替代开始渲染狗
[dog:10]：狗在10步之后开始渲染\

反向提示词框：不希望在画面中出现的元素

生成模块：

从左到右，功能依次为：
按钮功能
第一个读取上次生成的参数
第二个与第一个功能类似
第三个删除所有正反向提示词
第四个将预设里的反向提示词记载到提示词框中，预设需要在下方的画笔处进行设置

按钮	功能
第一个	读取上次生成的参数
第二个	与第一个功能类似
第三个	删除所有正反向提示词
第四个	将预设里的反向提示词记载到提示词框中，预设需要在下方的画笔处进行设置

采样方法：指从随机噪声生成最终图像时所采用的计算步骤和数学策略，它决定了图像生成的路径、速度和质量；使用其他大模型时根据模型作者推荐进行设置，日常一般使用DPM++2M或者Euler a

调度类型：指控制噪声随时间步长衰减方式的数学策略，它决定了采样过程中每一步噪声的调整节奏和强度；同样需要根据模型作者推荐的进行设置，一般使用Karras；采样器负责执行生成步骤的算法，而调度类型则定义这些步骤中噪声的衰减规则，两者配合完成图像生成

迭代步数：指AI从随机噪声生成最终图像所经历的降噪计算次数，它直接影响图像细节的精细度和生成所需时间；一般选择20-50区间，过少精度不够，过多容易出现伪影

提示词引导数：指控制AI对输入提示词的服从强度的参数，数值越高则生成结果越严格贴合提示词，但可能丧失创意性；数值越低则AI自由度越高，但易偏离主题；一般设置为7

总批次数和单批次量：前者适合电脑性能不高，一批次一张图片，生成多批次；后者适合电脑性能高，只生成一批次，一批次多张图片

随机种子值：指生成图像时使用的初始噪声图的唯一数字标识，它决定了AI绘画的起点噪声状态，直接影响图像的构图、细节和风格；相同的种子值在相同参数下会生成完全一致的图像

在这里插入图片描述

ADetailer：是一个后处理插件，用于自动检测并增强图像中的细节，通过局部重绘修复模糊或畸变问题，可以用于人脸的修复

一般选用mediapipe_face_full，保证随机种子值与想要重绘的图片一致，在重绘模块中调整局部重绘幅度重新生成局部

高分辨率修复：指通过分阶段生成策略（先快速生成低分辨率图像，再基于其细节智能放大至高清）来平衡效率与画质的核心功能，不能和ADetailer同时使用

放大算法：一般使用R-ESRGAN 4x+和R-ESRGAN 4x+ Anime6B，前者适合发大真实性的图片，后者适合放大动漫类型的图片
高分迭代步数：再次参考关键词进行生成，一般设置为0或10
放大倍数：将图像原来的大小扩大几倍

1.2.4 图生图

相比于文生图，图生图多出了两个按钮：

CLIP反推：使用CLIP神经网络创建图像的文本描述，并且将其填入到提示词框中
DeepBooru：使用DeepBooru神经网络创建图像的文字描述，并且将其填入到提示词框中

前者一般用于真实场景，输出语言风格是自然语言描述；后者一般用于动漫场景，输出风格是短标签组合

不过一般对于反推提示词，通常会使用WD1.4标签器，第一次使用可能会下载反推模型，时间会比较长

在这里插入图片描述

阈值越低，反推的越仔细，获得到的提示词就越多，一般默认即可

原图像素比较小的时候，可以使用三角形按钮自动检测尺寸

在这里插入图片描述

如果原图像素值过大，可以尝试重绘尺寸倍数，将尺度调小，其中1是原来比例

在这里插入图片描述

重绘幅度越大，图生图后的图像改变就越大，与提示词的关联度就越高

在这里插入图片描述

涂鸦：指用户通过手绘线条或色块覆盖原图局部区域，直接引导AI在指定位置进行定向重绘的交互式创作方式

在这里插入图片描述

局部重绘：手绘蒙版区进行针对局部的重新生成

在这里插入图片描述

涂鸦重绘：指用户通过手动绘制色块或线条覆盖图像局部区域，直接以视觉方式引导AI在该区域进行定向内容生成与替换的过程；例如画一个棕色区域胡，结合指导词“房子”，即可局部重绘出棕色的房子

在这里插入图片描述

上传重绘蒙版：根据已有的蒙版图片，对原图像进行重绘

在这里插入图片描述

蒙版图片可以从Inpaint Anything模块进行获取

第一次使用需要先下载模型，模型一般使用默认；上传图像之后点击运行Segment Anything，之后根据需要导出蒙版的部位用画笔进行点画

最后在仅蒙版模块下点击获取蒙版，并Send to img2img inpaint