当前位置: 首页 > news >正文

AI绘图-Stable Diffusion-WebUI的基本用法

前言

  WebUI中的功能十分多无法一一说明,个人多进行尝试和探索才能更加熟练工具的应用;在本章中将会介绍Stable Diffusion中WebUI的安装、常见模块介绍以及文生图、图生图的常用方法


1 WebUI安装和介绍:


1.1 安装

  • B站搜索秋叶,通过夸克网盘进行安装

在这里插入图片描述

  • 视频中自带Stable Diffusion安装教程,安装完成后启动Stable Diffusion

在这里插入图片描述

名称功能
高级选项调整生成引擎、显存优化等,一般来说是默认设置
疑难解答在生成图片出现错误的时候,这里进行扫描并生成错误报告
版本管理对SD、扩展插件的版本进行升级以及管理
模型管理对生成图像时使用到的各种模型进行管理
  • 简易的一图流教程:

在这里插入图片描述

  • 点击一键启动后打开浏览器

在这里插入图片描述


1.2 介绍

1.2.1 Stable Diffusion模型

 选择之前下载过的模型,大模型是生成图片的基础,一般分为真实类型、3D类型、动漫类型


模型下载网站可以选择Civitai、liblib

在这里插入图片描述


大模型下载可以在网站的筛选器中选择checkpoint

在这里插入图片描述


选择好下载的模型之后,可以在模型管理中打开大模型所在的文件夹

在这里插入图片描述


进入文件夹后将下载好的大模型文件放入
在这里插入图片描述


1.2.2 VAE模型和CLIP终止层数

VAE模型:个人理解上来看与添加滤镜比较相似,一般默认选择自动

在这里插入图片描述


CLIP终止层数:目的是跳过一些不必要的图像生成步骤,减少设备生成时间和负担,CLIP值越低,生成的图片越符合提示词的描述


1.2.3 文生图

  • 正向提示词框:希望在画面中出现的元素

 可以在小框中输入中文,会直接翻译到正向提示词框中

在这里插入图片描述


提示词一栏可以提供思路以及加载扩展模型

在这里插入图片描述


正向提示词建议书写结构
在这里插入图片描述


提示词的分隔与权重:一般使用英文‘,’进行分隔,权重有两种写法:
写法一:(1 girl:1.5):表示增强提示词的权重到1.5倍
写法二:(((1 gril))):每套一层括号,提示词权重增强1.1倍,表示1.331倍权重


提示词的其他语法:
[girl|cat]:表示猫女,女孩与猫融合
[cat:dog:20]:表示前20步渲染猫,之后开始被替代开始渲染狗
[dog:10]:狗在10步之后开始渲染\


  • 反向提示词框:不希望在画面中出现的元素

  • 生成模块

在这里插入图片描述
从左到右,功能依次为:

按钮功能
第一个读取上次生成的参数
第二个与第一个功能类似
第三个删除所有正反向提示词
第四个将预设里的反向提示词记载到提示词框中,预设需要在下方的画笔处进行设置

  • 采样方法:指从随机噪声生成最终图像时所采用的计算步骤和数学策略,它决定了图像生成的路径、速度和质量;使用其他大模型时根据模型作者推荐进行设置,日常一般使用DPM++2M或者Euler a

  • 调度类型:指控制噪声随时间步长衰减方式的数学策略,它决定了采样过程中每一步噪声的调整节奏和强度;同样需要根据模型作者推荐的进行设置,一般使用Karras;采样器负责执行生成步骤的算法,而调度类型则定义这些步骤中噪声的衰减规则,两者配合完成图像生成

  • 迭代步数:指AI从随机噪声生成最终图像所经历的降噪计算次数,它直接影响图像细节的精细度和生成所需时间;一般选择20-50区间,过少精度不够,过多容易出现伪影

  • 提示词引导数:指控制AI对输入提示词的服从强度的参数,数值越高则生成结果越严格贴合提示词,但可能丧失创意性;数值越低则AI自由度越高,但易偏离主题;一般设置为7

  • 总批次数和单批次量:前者适合电脑性能不高,一批次一张图片,生成多批次;后者适合电脑性能高,只生成一批次,一批次多张图片

  • 随机种子值:指生成图像时使用的初始噪声图的唯一数字标识,它决定了AI绘画的起点噪声状态,直接影响图像的构图、细节和风格;相同的种子值在相同参数下会生成完全一致的图像

在这里插入图片描述


  • ADetailer:是一个后处理插件,用于自动检测并增强图像中的细节,通过局部重绘修复模糊或畸变问题,可以用于人脸的修复

 一般选用mediapipe_face_full,保证随机种子值与想要重绘的图片一致,在重绘模块中调整局部重绘幅度重新生成局部
在这里插入图片描述


  • 高分辨率修复:指通过分阶段生成策略(先快速生成低分辨率图像,再基于其细节智能放大至高清)来平衡效率与画质的核心功能,不能和ADetailer同时使用

放大算法:一般使用R-ESRGAN 4x+和R-ESRGAN 4x+ Anime6B,前者适合发大真实性的图片,后者适合放大动漫类型的图片
高分迭代步数:再次参考关键词进行生成,一般设置为0或10
放大倍数:将图像原来的大小扩大几倍
在这里插入图片描述


1.2.4 图生图

  • 相比于文生图,图生图多出了两个按钮:

在这里插入图片描述
CLIP反推:使用CLIP神经网络创建图像的文本描述,并且将其填入到提示词框中
DeepBooru:使用DeepBooru神经网络创建图像的文字描述,并且将其填入到提示词框中


前者一般用于真实场景,输出语言风格是自然语言描述;后者一般用于动漫场景,输出风格是短标签组合


  • 不过一般对于反推提示词,通常会使用WD1.4标签器,第一次使用可能会下载反推模型,时间会比较长

在这里插入图片描述

 阈值越低,反推的越仔细,获得到的提示词就越多,一般默认即可
在这里插入图片描述


  • 原图像素比较小的时候,可以使用三角形按钮自动检测尺寸

在这里插入图片描述


  • 如果原图像素值过大,可以尝试重绘尺寸倍数,将尺度调小,其中1是原来比例

在这里插入图片描述


  • 重绘幅度越大,图生图后的图像改变就越大,与提示词的关联度就越高

在这里插入图片描述


  • 涂鸦:指用户通过手绘线条或色块覆盖原图局部区域,直接引导AI在指定位置进行定向重绘的交互式创作方式

在这里插入图片描述


  • 局部重绘:手绘蒙版区进行针对局部的重新生成

在这里插入图片描述


  • 涂鸦重绘:指用户通过手动绘制色块或线条覆盖图像局部区域,直接以视觉方式引导AI在该区域进行定向内容生成与替换的过程;例如画一个棕色区域胡,结合指导词“房子”,即可局部重绘出棕色的房子

在这里插入图片描述


  • 上传重绘蒙版:根据已有的蒙版图片,对原图像进行重绘

在这里插入图片描述

 蒙版图片可以从Inpaint Anything模块进行获取

在这里插入图片描述
第一次使用需要先下载模型,模型一般使用默认;上传图像之后点击运行Segment Anything,之后根据需要导出蒙版的部位用画笔进行点画


 最后在仅蒙版模块下点击获取蒙版,并Send to img2img inpaint

在这里插入图片描述


  • PNG图片信息:还原使用SD生成的图片信息,包括正反向提示词、使用的模型以及参数等

在这里插入图片描述


1.2.5 脚本

  • 在下方可以选择脚本xyz图表,可以根据自己的需求进行设定,一般用来对比在不同模型以及不同参数下,步数有什么不同

在这里插入图片描述


  • 除此之外还有提示词矩阵,直接在正向引导词处使用’|’代替’,’即可使用,例如’1cat|playing with oranges|playing with apples’,一般可以用于模特更换不同的衣服

在这里插入图片描述


1.2.6 Lora模型

  • 基本概念:指通过微调少量关键层参数生成的轻量级适配器,用于在基础大模型上叠加特定风格、角色或概念,实现定制化效果而不改变原模型结构;比如将普通人物转成迪士尼画风或固定生成某个原创角色

  • 下载安装:可以在模型网站上筛选出LORA标签,选择需要的进行下载,下载完成后将文件安装在下面的位置:

在这里插入图片描述


  • 使用Lora模型的顺序

 加载基础大模型->加载Lora插件->触发词激活->使用成功
在Lora模块中选择想要加载的插件,加载Lora插件:
在这里插入图片描述

http://www.lryc.cn/news/610295.html

相关文章:

  • SwiftUI ios开发中的 MVVM 架构深度解析与最佳实践
  • 深度学习零基础入门(4)-卷积神经网络架构
  • (JAVA)自建应用调用企业微信API接口,设置企业可信IP
  • 流量见顶时代,知识付费 IP 的破局逻辑
  • 汇川PLC通过ModbusTCP转Profinet网关连接西门子PLC配置案例
  • 飞算 JavaAI 实战:从代码生成到架构优化的全场景应用指南
  • 机试备考笔记 4/31
  • springboot博客实战笔记01
  • 登Nature子刊,基于基因测序和机器学习的废水流行病学评估,病毒检出时间最高提前4周
  • 机器学习(11):岭回归Ridge
  • 服务器的Mysql 集群技术
  • 经典设计模式
  • YOLO11涨点优化:原创自研DSAM注意力!基于BiLevelRoutingAttention的颠覆性升级
  • 06 基于sklearn的机械学习-欠拟合、过拟合、正则化、逻辑回归
  • Ethereum: 深度解析Web3世界的合规之门, ERC-1400证券型代币标准
  • ISCC认证:可持续生产的新标杆。ISCC如何更快认证
  • 线程互斥锁:守护临界区的关键
  • 服务器数据安全:利用阿里云OSS/腾讯云COS实现网站数据自动备份
  • 2.5 DICOM 传输语法(Transfer Syntaxes)
  • 【Canvas与文字】生存与生活
  • 文件与目录操作命令
  • SRIO入门之官方例程仿真验证
  • History 模式 vs Hash 模式:Vue Router 技术决策因素详解
  • 数据结构——并查集及C++实现
  • 0.08B参数以小博大:用小模型生成媲美GPT-4o的古典诗词
  • 土壤温度传感器CG-03在实际应用中的价值体现
  • 刷题记录0804
  • AI小说创作工具体验:本地部署助力文学创作,Ollama+AIStarter一键搞定
  • 数据驱动建模——数据孪生继续
  • docker-compose一键部署Springboot+Vue前后端分离项目