当前位置: 首页 > news >正文

Stable Diffusion训练图片时,简陋的数据处理

0 图片从命名

如果有强迫症,看到似乎乱码的命名会不舒服,那么就批量从命名

import osdef rename_files_in_directory(directory, key_word, new_suffix):i = 1for filename in os.listdir(directory):new_file = key_word + str(i).zfill(3) + new_suffixsource = os.path.join(directory, filename)destination = os.path.join(directory, new_file)os.rename(source, destination)i += 1
# 使用方法
# rename_files_in_directory('/path/to/directory', '.new_suffix')
# D:\SdTrainerGUI\lora-scripts-v1.7.3\train\XiboBird\5_zkz

1 批量缩小图片分辨率

如果是用同一个相机拍的,分辨率都是一样的,只不过分辨率太大了8K以上的分辨率显卡受不了

from PIL import Image
import osdef resize_image(image_path, output_path, scale_factor):# 打开图片img = Image.open(image_path)# 获取图片的宽度和高度width, height = img.size# 计算新的宽度和高度new_width = width // scale_factornew_height = height // scale_factor# 使用ANTIALIAS滤镜来缩小图片# new_img = img.resize((new_width, new_height), Image.ANTIALIAS)new_img = img.resize((new_width, new_height), Image.ANTIALIAS)# 保存新图片new_img.save(output_path)def get_all_image(path, file_extension=".jpg"):return [os.path.join(path, f) for f in os.listdir(path) if f.endswith(file_extension)]def process_images(catalog_of_original_images, file_extension, scale_factor):# 获取原始图像目录的上一级目录parent_directory = os.path.dirname(catalog_of_original_images)# 设置输出目录output_catalog = os.path.join(parent_directory, "output")# 创建输出目录if not os.path.exists(output_catalog):os.makedirs(output_catalog)image_list = get_all_image(catalog_of_original_images, file_extension)for image in image_list:# 获取图片的文件名image_name = os.path.basename(image)# 设置输出图片的路径output_image_path = os.path.join(output_catalog, image_name)# 缩小图片并保存resize_image(image, output_image_path, scale_factor)if __name__ == '__main__':process_images(r"E:\Dwk\Photos\祥春鸟", ".jpg", 10)

2 图片数据集增强

最简易的增强是图片镜像,就是左右颠倒各一张,图片数据集数量直接翻倍

import os
from PIL import Image, ImageOpsdef data_enhancement(image_catalog, file_extension=".jpg"):image_list = [os.path.join(image_catalog, f) for f in os.listdir(image_catalog) if f.endswith(file_extension)]for image in image_list:# 打开图片img = Image.open(image)# 创建镜像图片mirror_img = ImageOps.mirror(img)# 获取图片的文件名(不包括后缀)image_name = os.path.splitext(os.path.basename(image))[0]# 设置镜像图片的文件名mirror_image_name = image_name + "_mirror" + file_extension# 设置镜像图片的路径mirror_image_path = os.path.join(image_catalog, mirror_image_name)# 保存镜像图片mirror_img.save(mirror_image_path)if __name__ == '__main__':data_enhancement(r"E:\Dwk\Photos\output", ".jpg")

3 tag内容批量修改(这里是只替换)

避免一个个文件打开逐个tag修改

import osdef replace_words_in_files(directory, old_word, new_word):# 获取指定目录下的所有文件files = os.listdir(directory)# 遍历所有文件for file in files:# 检查文件是否为.txt文件if file.endswith('.txt'):# 构建完整的文件路径file_path = os.path.join(directory, file)# 打开文件with open(file_path, 'r') as f:content = f.read()# 替换内容content = content.replace(old_word, new_word)# 写回文件with open(file_path, 'w') as f:f.write(content)if __name__ == '__main__':replace_words_in_files(r'D:\SdTrainerGUI\lora-scripts-v1.7.3\train\PreprocessingOutput','girl','boy')

http://www.lryc.cn/news/322023.html

相关文章:

  • 如何在ubuntu 18.04中升级python 3.6到3.7
  • python爬虫基础实验:通过DBLP数据库获取数据挖掘顶会KDD在2023年的论文收录和相关作者信息
  • 简单记录一次帮维修手机经历(Vivo x9)
  • ap聚类是什么
  • C数据类型(C语言)---变量的类型决定了什么?
  • axios、axios二次封装、api解耦
  • HTML 特殊元素:展示PDF、展示JSON 数据
  • 算法·动态规划Dynamic Programming
  • 鸿蒙Harmony应用开发—ArkTS-转场动画(共享元素转场)
  • 【C语言】循环语句(语句使用建议)
  • Spring Data访问Elasticsearch----响应式Reactive存储库
  • 堆排序(c语言)
  • 开源IT自动化运维工具Ansible解析
  • 【C++】仿函数优先级队列反向迭代器
  • UE4_调试工具_绘制调试球体
  • 机器人路径规划:基于冠豪猪优化算法(Crested Porcupine Optimizer,CPO)的机器人路径规划(提供MATLAB代码)
  • 探索.NET中的定时器:选择最适合你的应用场景
  • 5467: 【搜索】流浪奶牛
  • spring boot整合elasticsearch实现查询功能
  • 白嫖阿里云程序员日历
  • ubuntu20.04搭建rtmp视频服务
  • Request failed with status code 504,Gateway time out
  • 四、Elasticsearch 进阶
  • 海外云手机如何帮助亚马逊引流?
  • Gateway新一代网关
  • Simulink中Scope图像导出在MATLAB上重新画
  • 利用opencv获取系统时间
  • Go环境变量配置,及GOROOT、GOPATH的区别
  • 爬虫系列-CSS基础语法
  • 获取比特币和莱特币的实时价格