当前位置: 首页 > news >正文

【Datawhale】扩散模型学习笔记 第一次打卡

文章目录

  • 扩散模型学习笔记
    • 1. 扩散模型库Diffusers
      • 1.1 安装
      • 1.2 使用
    • 2. 从零开始搭建扩散模型
      • 2.1 数据准备
      • 2.2 损坏过程
      • 2.3 模型构建
      • 2.4 模型训练
      • 2.5 采样
    • 3. webui

扩散模型学习笔记

1. 扩散模型库Diffusers

1.1 安装

由于diffusers库更新较快,所以建议时常upgrade

# pip
pip install --upgrade diffusers[torch]
# conda
conda install -c conda-forge diffusers

1.2 使用

from diffusers import DiffusionPipelinegenerator = DiffusionPipeline.from_pretrained("runwayml/stable-diffusion-v1-5", use_safetensors=True)
generator.to("cuda")
image = generator("An image of a squirrel in Picasso style").images[0]
image.save("image_of_squirrel_painting.png")

2. 从零开始搭建扩散模型

2.1 数据准备

在这个示例中,我们将使用经典的MNIST数据集作为示范。MNIST数据集包含28x28像素的手写数字图像,每个像素值的范围从0到1。

2.2 损坏过程

我们希望能够控制输入数据的损坏程度,因此引入了一个参数 amount,该参数控制了噪声的程度。你可以使用以下方法来添加噪声:

noise = torch.rand_like(x)
noisy_x = (1 - amount) * x + amount * noise

如果 amount 为0,则输入数据保持不变。如果 amount 为1,输入数据将变为纯粹的噪声。通过混合输入数据和噪声,我们可以确保输出数据的范围仍在0到1之间。

2.3 模型构建

我们将使用UNet模型来处理噪声图像。UNet是一种用于图像分割的常见架构,由压缩路径和扩展路径组成。在这个示范中,我们将构建一个简化版本的UNet,它接收单通道图像,并通过卷积层在下行路径(down_layers)和上行路径(up_layers)之间具有残差连接。我们将使用最大池化进行下采样和 nn.Upsample 进行上采样。

2.4 模型训练

在模型训练过程中,模型的任务是将损坏的输入 noisy_x 转换为对原始图像 x 的最佳估计。我们使用均方误差(MSE)来比较模型的预测与真实值,然后使用反向传播算法来更新模型的参数。

2.5 采样

如果模型在高噪声水平下的预测不够理想,可以进行采样以生成更好的图像。你可以从完全随机的噪声图像开始,然后逐渐接近模型的预测。这意味着你可以检查模型的预测结果,然后只向预测的方向移动一小步,比如向预测值移动20%。这将生成一个具有较少噪声的图像,其中可能包含一些关于输入数据的结构提示。将这个新图像输入模型,希望得到比第一个预测更好的结果。这个过程可以迭代多次,以逐渐减小噪声并生成更好的图像。

这是一个简化的扩散模型搭建和训练的概述。你可以根据具体的问题和数据进行修改和优化,以获得更好的结果。希望这些步骤能帮助你理解如何搭建扩散模型并训练它。

from diffusers import DDPMScheduler, UNet2DModel
from PIL import Image
import torch
import numpy as npscheduler = DDPMScheduler.from_pretrained("google/ddpm-cat-256")
model = UNet2DModel.from_pretrained("google/ddpm-cat-256").to("cuda")
scheduler.set_timesteps(50)sample_size = model.config.sample_size
noise = torch.randn((1, 3, sample_size, sample_size)).to("cuda")
input = noisefor t in scheduler.timesteps:with torch.no_grad():noisy_residual = model(input, t).sampleprev_noisy_sample = scheduler.step(noisy_residual, t, input).prev_sampleinput = prev_noisy_sampleimage = (input / 2 + 0.5).clamp(0, 1)
image = image.cpu().permute(0, 2, 3, 1).numpy()[0]
image = Image.fromarray((image * 255).round().astype("uint8"))
image

3. webui

参考我的另一篇博客:https://blog.csdn.net/qq_44824148/article/details/130389357

http://www.lryc.cn/news/199870.html

相关文章:

  • Spring Boot学习笔记
  • 图像边缘检测--(Sobel、Laplacian、Canny)
  • 【计算机网络笔记】计算机网络性能(2)——时延带宽积、丢包率、吞吐量/率
  • 自学(黑客技术)——网络安全高效学习方法
  • 【Linux】进程概念与进程状态
  • 解决安装nvm以后windows cmd无法找到npm/yarn命令的问题
  • 深入解析Java正则表达式:定义、原理和实例
  • DatenLord前沿技术分享 No.38
  • ms-sql server sql 把逗号分隔的字符串分开
  • 零基础制作预约小程序,微信小程序预约服务指南
  • 算法---交替合并字符串
  • 下载运行ps软件提示因为计算机中丢失d3dcompiler_47.dll解决方法
  • Flutter Image组件如何处理图片加载过程中的错误?
  • 在mysql8查询中使用ORDER BY结合LIMIT时,分页查询时出现后一页的数据重复前一页的部分数据。
  • 【SA8295P 源码分析 (三)】97 - QNX AIS Camera 框架介绍 及 Camera 工作流程分析
  • 基于epoll封装非阻塞的reactor框架(附源码)
  • 安装Git和git命令使用
  • 【SA8295P 源码分析 (四)】65 - emac0-phy 与 emac1-switch兼容 方案实现
  • SpringSecurity源码学习二:异常处理
  • 代码随想录算法训练营第23期day28|491.递增子序列 46.全排列 47.全排列 II
  • ubuntu磁盘扩容
  • C/S架构学习之使用select实现TCP小型并发服务器
  • 公司注册类型分类标准是怎样的
  • 5.MidBook项目经验之MongoDB,Nacos,网关
  • XMLHttpRequest对象的Get请求和Post请求的用法
  • Tomcat动静分离
  • 一些ECharts配置
  • C调用Objective-C的类和方法
  • 驱动开发day1
  • C++ linux vscode编译