当前位置: 首页 > news >正文

「Pytorch」roLabelImg 图像异常旋转 bug

在进行Yolo-obb 模型训练的时候需要标注旋转框,roLabelImg 是比较推荐的一款旋转框标注工具,既可以标注正常的矩形框,还可以标注旋转框

roLabelImg Github 地址:https://github.com/HumanSignal/labelImg

但是在使用过程中遇到了一个比较难搞的bug。对于手机等拍摄的图像,除了图像内容还会保存很多其他信息,比如下图的旋转,采用不同的方式打开,效果是不一样的,使用常规的图像查看就是正常的,但是使用 roLabelImg 打开就会发现逆时针旋转 90度。由于roLabelImg 开发较早,目测好像没人维护了,bug也没人解决了,对于项目比较急的小伙伴,可以采用本文临时救急使用,后续有时间再修复bug

在这里插入图片描述


原因

先说下造成这种情况的原因。通过 roLabelImg.py 文件可以看出,roLabelImg 在读取图片的时候是先通过read 函数,将图像以二进制的形式读取所有内容,然后再 QImage.fromData 将像素信息提取出来,但是 QImage 读取的时候会根据图片的头信息结合旋转显示,而Yolo-obb模型读取数据的时候直接采用 opencv 的形式将图片读取出来,出入就此产生

def read(filename, default=None):try:with open(filename, 'rb') as f:return f.read()except:return default

在这里插入图片描述


解决办法

由于比赛时间紧迫,因此当时我们采用的解决方案是,将所有的图片重置一遍,简单点将就是使用 opencv 将图片读取之后,再将所有的像素内容保存一遍,从而去除掉图片中的头信息,在此推荐使用cv2.imdecode 进行读取,不受限于操作系统和中英文路径,而cv2.imread在windows系统下如果路径中有中文,则会跳过且不报错(又是一把辛酸泪(灬ꈍ ꈍ灬)),可以参考我的这篇博客查看细节cv2.imdecode & cv2.imread 的区别

import cv2
import numpy as npimage_data = np.fromfile(pred_image_path, dtype=np.uint8)	# 从文件中读取图像数据
image = cv2.imdecode(image_data, cv2.IMREAD_COLOR)			# 使用cv2.imdecode()解码图像数据# 简写
image = cv2.imdecode(np.fromfile(pred_image_path, dtype=np.uint8), cv2.IMREAD_COLOR)	# 支持中文,与cv2.imread 读取一致

在此建议不要原地覆盖,而是另保存一个路径,这样一来可以保存原有数据,以防后期需要,二来原地覆盖保存,可能因为 opencv 不提示警告、错误信息,导致重置失败而不自知,保存在其他路径,查看图片数量即可指导是否出错。

后续优化

明白人都知道,此方法只能解决燃眉之急,不是根本解决之道,因此真正的解决办法应该是采用OpenCV 或者 PIL读取图片,但是整个项目较为复杂,后续有时间再补上解决代码

http://www.lryc.cn/news/401005.html

相关文章:

  • java.sql.SQLException: Unknown system variable ‘query_cache_size‘【Pyspark】
  • 汽车连接器革新!中国星坤产品在汽车安全与效率中的卓越表现!
  • DHCP服务、FTP服务
  • AWS云计算实战:电商平台发卡机器人开发指南
  • 虚拟机及其Debian(kali)安装
  • Linux部署禅道(无脑复制版)
  • C# .net6使用Hangfire
  • NaiveUI与ElementUI 比较分析
  • 使用ChatGPT来撰写和润色学术论文的教程(含最新升级开桶ChatGpt4教程)​​
  • matine组件库踩坑日记 --- react
  • 爬虫学习前记----Python
  • 详解Go语言中的Goroutine组(Group)在项目中的使用
  • Linux桌面环境手动编译安装librime、librime-lua以及ibus-rime,提升中文输入法体验
  • 一文入门【NestJs】Providers
  • 云原生(Cloud native)
  • JVM OutOfMemoryError异常模拟
  • 架构师机器学习操作 (MLOps) 指南
  • 【学习笔记】虚幻SkeletalMesh学习(一)基础介绍
  • Apache防盗链、网页压缩、网页缓存
  • LocalAI - 笔记
  • Windows图形界面(GUI)-SDK-C/C++ - 编辑框(edit)
  • 区块链学习05-web3中solidity和move语言
  • web滚动页面到指定位置
  • 操作系统真象还原:实现文件写入
  • FastAPI 学习之路(四十九)WebSockets(五)修复接口测试中的问题
  • STM32智能楼宇照明系统教程
  • 【C语言】原码、反码、补码详解 -《码上有道 ! 》
  • C++找到错误的具体信息
  • Windows 安装Zookeeper
  • 从人工巡检到智能预警:视频AI智能监控技术在水库/河湖/水利防汛抗洪中的应用