当前位置：首页 > news >正文

Stable Diffusion教程——使用TensorRT GPU加速提升Stable Diffusion出图速度

news 2025/7/3 16:00:48

概述

Diffusion 模型在生成图像时最大的瓶颈是速度过慢的问题。为了解决这个问题，Stable Diffusion 采用了多种方式来加速图像生成，使得实时图像生成成为可能。最核心的加速是Stable Diffusion 使用了编码器将图像从原始的 3512512 大小转换为更小的 46464 大小，从而极大地降低了计算量。它还利用了潜在表示空间（latent space）上的 Diffusion 过程，进一步降低了计算复杂度，同时也能保证较好的图像生成效果。在消费级GPU 上（8G显存），Stable Diffusion 要生成一张描述复杂图像大概需要 4 秒时间。

然而，对于许多面向消费者的应用来说，每张图像生成需要 4 秒的耗时仍然过长。这时候，TensorRT 就发挥了重要作用。TensorRT 是英伟达（NVIDIA）推出的高性能深度学习推理（inference）库，旨在优化和加速深度学习模型的推理过程。它能够将训练好的深度学习模型优化并部署到 NVIDIA GPU 上，实现实时推理任务的高效执行。TensorRT 的设计目标是提高推理性能、减少延迟和资源消耗，并支持在边缘设备上运行。

TensorRT 提供了许多优化技术，包括网络层融合（layer fusion）、内存优化、精度降级（precision calibration）、量化（quantization）和深度学习模型的裁剪（network pruning）。通过这些技术，TensorRT 可以最大限度地利用 GPU 的并行计算能力，实现深度学习模型的高效执行。

2023年10月18日 Nvidia终于推出了官方的TensorRT插件Stable-Diffusion-WebUI-TensorRT，该插件可以直接在 webui 的 extension 中安装即可，默认支持cuda11.x。

环境配置要求

要使用Stable-Diffusion-WebUI-TensorRT插件加速，有几个重要的前提条件，GPU必须是NVIDIA的（俗称N卡），GPU的显存必须在8G以上，包含8G，GPU驱动版本大于等于537.58,如果电脑没有别的深度学习模型要训练，建议驱动更新到最新的版本。物理内存大于等于16G。
支持Stable-Diffusion1.5,2.1，SDXL，SDXL Turbo 和 LCM。对于 SDXL 和 SDXL Turbo，官方推荐使用具有12GB 或更多 VRAM 的 GPU，以获得最佳性能。

在这里插入图片描述
查看GPU驱动版本：

查看内存与显卡型号：

我使用的环境是win10,GPU 3080 10G显存，32G内存，Stable Diffusion用的是秋叶大佬的4.5这个版本。

Stable-Diffusion-WebUI-TensorRT安装

1.安装

启动Stable-Diffusion-WebUI，找到扩展，然后从网址安装TensorRT插件：
插件网址：https://github.com/NVIDIA/Stable-Diffusion-WebUI-TensorRT.git 在这里插入图片描述
点击安装：

等侍2到10分钟，安装完成：

然后重启Stable-Diffusion-WebUI，就可以看到：
在这里插入图片描述

2.设置

打开设置——>用户界面——>快捷设置列表——>输入"sd_unet",然后保存设置，重载UI：
在这里插入图片描述
重启之后就可以看到多了一个SD Unet的选框了：

3.模型转换

选择要使用的模型，然后打开TensorRT——>TensorRT导出——>选择预设尺寸——>导出引擎:
在这里插入图片描述
关于导出尺寸，这是要设置不用尺寸，但尺寸大小只能是2的幕，这里面导出的模型为onnx模型，如果接触过深度学习的都清楚这个尺寸的含义。

4. 测试推理速度

使用TensorRT推理时，选择的模型与SD Unet要对应，出图的宽度与高度，也要对应上一步导出的模型的尺寸：
在这里插入图片描述

测试出图速度，使用TensorRT出图时，第一张图会很慢，要计算时间可以从第二张开始算，下面出图尺寸是1024*1024：

使用TensorRT推理：
在这里插入图片描述
不使用TensorRT推理，可以看出慢了2点几秒，差不多3秒：

使用TensorRT推理（出图尺寸512*512）：
在这里插入图片描述

不使用TensorRT推理（出图尺寸512*512），可以看出，不使用TensorRT差不多要慢上一倍左右：
在这里插入图片描述

http://www.lryc.cn/news/302044.html

相关文章：

NFTScan | 02.12~02.18 NFT 市场热点汇总

使用 apt 源安装 ROCm 6.0.x 在Ubuntu 22.04.01

python函数的定义和调用

【JVM篇】什么是类加载器，有哪些常见的类加载器

STM32—DHT11温湿度传感器

相机图像质量研究(31)常见问题总结：图像处理对成像的影响--图像差

MySQL之select查询

Android MMKV 接入+ 替换原生 SP + 原生 SP 数据迁移

C#上位机与三菱PLC的通信07--使用第3方通讯库读写数据

LiveGBS流媒体平台GB/T28181常见问题-基础配置流媒体服务配置中本地|内网IP外网IP(可选)外网IP收流如何配置

微服务- 熔断、降级和限流

电路设计（20）——数字电子钟的multism仿真

【论文阅读笔记】Contrastive Learning with Stronger Augmentations

前端win10如何设置固定ip（简单明了）

数据结构1.0（基础）

anomalib1.0学习纪实-续2：三个文件夹

【递归】【后续遍历】【迭代】【队列】Leetcode 101 对称二叉树

Nginx https反向代理

电动五金工具行业调研：政策促进市场发展

【矩阵】托普利茨矩阵

DS：八大排序之归并排序、计数排序

由斐波那契数列探究递推与递归

红队打靶练习:IMF: 1

密码管理局以及什么是密评？为什么要做密评(商用密码应用安全性评估)？

六、Datax通过json字符串运行

关于数据库

洛谷C++简单题小练习day14—闰年推算小程序

房企关注的典型数字化场景之一：数字营销

BMS再进阶（新能源汽车电池管理系统）