当前位置: 首页 > news >正文

用OpenCV进行OCR字符分割

1. 引言

本文重点介绍如何利用传统的图像处理的方法来进行OCR字符切分,进而可以用分割后的单个字符做相应的后续任务,虽然现在计算机视觉依然是卷积神经网络的天下,但是对于一些相对简单的落地场景传统方案还是很有效的。
闲话少说,我们直接开始吧!

2. 基本概念

OCR: 全称 Optical Character Recognition , 光学字符识别
Segmentation: 是指在图像处理领域中将整张图像分解为多个子部分以进行进一步处理的过程。
OCR Segmentation: 是指将包含文本的图像分解成多个小部分,以识别背景中的文本。
在这里插入图片描述

本文主要通过Python中的计算机视觉处理库OpenCV来实现上述过程。

3. 读入图像

一旦我们拥有了包含文本的数字图像,或者通过扫描仪扫描某些文档并将其存储为数字图像,接着就可以开始下一步,即预处理。这里我们将使用以下图像作为例子,如下所示。

myImage= cv2.imread('pngImgs/t20.png')
cv2.imshow('Text Image', returnImage)
cv2.waitKey(0)

结果如下:
在这里插入图片描述

4. 图像二值化

在我们开始分割文本图像之前,有几个步骤,这些步骤如下:
灰度化:将输入图像转换为灰色图像,使系统能够轻松识别图像中的不同形状并去除相关颜色信息。

grayImg = cv2.cvtColor(myImage, cv2.COLOR_BGR2GRAY)

结果如下:
在这里插入图片描述

二值化:这意味着将灰度图像转换为二值图像,换句话说,二值化后的图像将只包含两个值:[0,1]或黑白。

 ret, thresh = cv2.threshold(grayImg, 0, 255, cv2.THRESH_OTSU | cv2.THRESH_BINARY_INV)

结果如下:
在这里插入图片描述

5. 形态学操作

接着我们可以选择并使用多种算法从上述二值图像中提取信息,例如直方图均衡、傅立叶变换、形态学等。
在这个应用程序中,我们决定选择形态算法来提取所需的信息。
代码如下:

horizontal_kernel = cv2.getStructuringElement(cv2.MORPH_RECT, (18, 18))
dilation = cv2.dilate(thresh1, horizontal_kernel, iterations=1)

结果如下:
在这里插入图片描述

6. 查找轮廓

接着我们需要找到轮廓线,这样我们才能将图像与背景逐行分离。

horizontal_contours, hierarchy = cv2.findContours(dilation, cv2.RETR_EXTERNAL, cv2.CHAIN_APPROX_NONE)
for cnt in horizontal_contours:x, y, w, h = cv2.boundingRect(cnt)rect = cv2.rectangle(im2, (x, y), (x + w, y + h), (255, 255, 255), 1)

得到结果如下:
在这里插入图片描述

7. 单词和字符分割

接着我们通过以下步骤对裁剪出的轮廓子图进行单词分割:

1-预处理(灰度、阈值),
2-形态学算法,
3-找到边界并绘制它们,
4-进入单个字符分割

进而我们将对输出图像中的每个单词再次重复相同的步骤进行单个字符的分割:

1-预处理(灰度、阈值),
2-形态学算法,
3-找到边界并绘制它们,
4-停止

最终我们得到的结果如下:
在这里插入图片描述

上图中的绿色框为可能的单词框,蓝色框为可能的包含字符的框,黑色框为找到的潜在的包含外轮廓的最小外接矩形框。

8. 其他示例

我们将上述处理过程应用于其他图像,得到结果如下:
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

9. 结论

本文重点介绍了在传统图像处理中,如何利用常见的形态学方法进行字符轮廓查找进而切分字符的样例,并给出了相应的代码实现。对于一些字符分布简单,字符间隔较大的场景下,可以取得一定的效果;由于是传统方案,改方法的泛化性还是非常局限的,后续可以考虑使用神经网络的方法来实现更加鲁棒的算法。

代码链接: 戳我

http://www.lryc.cn/news/94092.html

相关文章:

  • MyCat Docker 搭建与测试
  • 车载通讯USB开发,增强车内娱乐体验
  • js的一些小技巧
  • Springboot Mybatis 自定义顺序排序查询,指定某个字段
  • 期刊会议审稿意见
  • Java类加载机制:从字节码到对象的奇妙之旅
  • 代码随想录第一天|二分法、双指针
  • Flink中KeyedStateStore实现--怎么做到一个Key对应一个State
  • flex: 0 0 100%;
  • IMX6ULL系统移植篇-镜像烧写方法
  • 【Android】实现雷达扫描效果,使用自定义View来绘制雷达扫描动画
  • 小程序 - 文件预览
  • 将String类型的证书转换为X509Certificate类型对象,读取证书链文件内容,完成证书链校验
  • v-model实现原理(一根绳上的蚂蚱)
  • 第三章 仅支持追加的单表内存数据库
  • 抖音seo矩阵系统源码解析
  • 6个ChatGPT4的最佳用途
  • go系列-读取文件
  • 10 编码转换问题
  • Spring MVC获取参数和自定义参数类型转换器及编码过滤器
  • 理想的实验
  • nginx配置开机启动(Windows环境)
  • MySQL 基础面试题02(事务索引)
  • 主从架构lua脚本-Redis(四)
  • maven与idea版本适配问题
  • ChatGPT扫盲知识库
  • chatgpt赋能python:Python轨迹可视化:用数据讲故事
  • K-means
  • 归并排序(基础+提升)
  • MATLAB应用