当前位置: 首页 > news >正文

一款支持80+语言,包括:拉丁文、中文、阿拉伯文、梵文等开源OCR库

大家好,今天给大家分享一个基于PyTorch的OCR库EasyOCR,它允许开发者通过简单的API调用来读取图片中的文本,无需复杂的模型训练过程。

项目介绍

EasyOCR 是一个基于Python的开源项目,它提供了一个简单易用的光学字符识别(OCR)工具,支持超过80种语言以及多种书写脚本,包括拉丁文、中文、阿拉伯文、天城体、西里尔文等。

EasyOCR 利用PyTorch作为其深度学习执行框架,展示了对人工智能和机器学习在文本识别领域的强大应用能力。

核心特点

多语言支持:支持超过 80 种语言和所有流行的书写系统,包括拉丁文、中文、阿拉伯文、梵文、西里尔文等,可满足全球用户处理不同语言文档的需求。

高准确性:对于正常图片文本识别,准确率能达到较高水平,无论是手写体还是印刷体都能够较为准确地识别,其深度学习模型能够学习不同语言的字符特征和书写风格,从而提高识别精度。

文本检测与识别功能兼具:不仅可以识别图片中的文本内容,还能检测出文本框的位置,以左上、右上、右下、左下坐标顺序依次返回,可应用于多种需要定位文本的场景,如文档排版分析、图像内容理解等。

支持 GPU 加速:配置好相应的 CUDA、PyTorch、Torchvision Python 环境后,可使用 GPU 进行加速,识别速度相比 CPU 快 6~7 倍,能够提高处理效率,更快地完成大量图片的文本识别任务。

易于使用:将所有功能封装到一个类中,通过简单的函数调用即可实现文本识别和检测。并且已经上传到 PyPI,可通过 pip 命令完成安装,使用 Python 调用非常方便。

技术架构

关键技术
  • CRAFT 算法:用于文本检测。

  • CRNN 模型:用于文本识别,由特征提取、序列标注和解码三个组件组成。

  • PyTorch:用于深度学习模型的训练和推理。

框架
  • Python:主要编程语言。

  • PyTorch:深度学习框架。

  • OpenCV:用于图像处理。

应用场景

文档数字化:帮助用户将纸质文档快速、准确地转换为电子文档,便于存储、检索和共享,提高文档管理的效率和便利性。

数据录入:能够自动化数据录入流程,减少人工输入的错误和时间成本,适用于处理大量表单、报表等数据的场景,如企业的财务数据录入、物流信息录入等。

多语言翻译:自动识别并提取不同语言的文本,为多语言翻译提供基础,方便跨国交流和信息共享,例如在处理跨国公司的文件、国际学术文献等方面有很大的应用价值。

内容审核:可以自动识别图像中的文本内容,用于内容审核和合规性检查,帮助用户快速筛选出包含特定关键词或不符合规定的文本信息,如在社交媒体、网络平台等的内容监管方面发挥作用。

其他场景:还可应用于金融领域的票据识别、互联网爬虫中的文本提取、支付系统中的二维码和条形码识别、大数据处理中的文本抓取和解析、车辆车牌识别等多种业务场景。

安装使用

安装

安装依赖
  • Python 环境:确保你已经安装了 Python 3.6 或更高版本。

  • CUDA 和 cuDNN(可选):如果你有 NVIDIA GPU 并希望使用 GPU 加速,请安装 CUDA 和 cuDNN。

  • PyTorch:EasyOCR 依赖于 PyTorch,因此需要先安装 PyTorch。

步骤 1:安装 PyTorch

首先,你需要安装 PyTorch。你可以根据你的系统配置和是否使用 GPU,在 PyTorch 官网 上找到合适的安装命令。例如,如果你使用的是 Windows 系统并且没有 GPU,可以使用以下命令:

pip install torch torchvision torchaudio

步骤 2:安装 EasyOCR

安装完 PyTorch 后,你可以通过 pip 安装 EasyOCR。

pip install easyocr

使用

可通过下列代码进行简单验证。

import easyocr
reader = easyocr.Reader(['ch_tra','en']) # 加载简体中文和英文模型
result = reader.readtext('chinese.jpg')

以此图片为例

将输出下列结果

[([[448, 111], [917, 111], [917, 243], [448, 243]],'高鐵左營站',0.9247),
([[454, 214], [629, 214], [629, 290], [454, 290]], 'HSR', 0.9931),
([[664, 222], [925, 222], [925, 302], [664, 302]],'Station',0.3260),
([[312, 306], [937, 306], [937, 445], [312, 445]],'汽車臨停接送區',0.7417),
([[482, 418], [633, 418], [633, 494], [482, 494]],'Kiss',0.9577),
([[331, 421], [453, 421], [453, 487], [331, 487]], 'Car', 0.9630),
([[653, 429], [769, 429], [769, 495], [653, 495]], 'and', 0.9243),
([[797, 429], [939, 429], [939, 497], [797, 497]],'Ride',0.6400)]

你可以通过设置detail=0输出简单结果

result = reader.readtext('chinese.jpg', detail=0)

如果你有 GPU 并希望使用 GPU 加速,可以在创建 Reader 实例时设置 gpu=True

reader = easyocr.Reader(['ch_tra','en'], gpu=True)

总结

EasyOCR作为一个轻量级但功能强大的OCR库,为Python开发者提供了便捷的文字识别方案。虽然在某些复杂的场景下,EasyOCR的识别准确率可能不如一些商业OCR引擎,但对于大部分日常应用场景来说,EasyOCR已经足够胜任。相信随着EasyOCR的不断发展,它将在更多领域发挥其独特的作用。

项目地址

https://github.com/JaidedAI/EasyOCR

一款支持80+语言,包括:拉丁文、中文、阿拉伯文、梵文等开源OCR库 - BTool博客 - 在线工具软件,为开发者提供方便 

http://www.lryc.cn/news/496385.html

相关文章:

  • Flink四大基石之CheckPoint(检查点) 的使用详解
  • JVM 常见面试题及解析(2024)
  • Python 调用 Umi-OCR API 批量识别图片/PDF文档数据
  • K8S资源之secret资源
  • QT:信号和槽01
  • 针对Qwen-Agent框架的Function Call及ReAct的源码阅读与解析:Agent基类篇
  • XML 查看器:深入理解与高效使用
  • 《Vue零基础入门教程》第十五课:样式绑定
  • 以AI算力助推转型升级,暴雨亮相CCF中国存储大会
  • 【VMware】Ubuntu 虚拟机硬盘扩容教程(Ubuntu 22.04)
  • 3D Bounce Ball Game 有什么技巧吗?
  • 【SQL】实战--组合两个表
  • Spring基于注解实现 AOP 切面功能
  • 设计模式 更新ing
  • Elasticsearch 进阶
  • 【AI】Sklearn
  • 通过 JNI 实现 Java 与 Rust 的 Channel 消息传递
  • 【老白学 Java】对象的起源 Object
  • Ubuntu Linux操作系统
  • SpringBoot 打造的新冠密接者跟踪系统:企业复工复产防疫保障利器
  • 嵌入式Linux(SOC带GPU树莓派)无窗口系统下搭建 OpenGL ES + Qt 开发环境,并绘制旋转金字塔
  • webGL入门教程_06变换矩阵与绕轴旋转总结
  • 生成树详解(STP、RSTP、MSTP)
  • 【QNX+Android虚拟化方案】128 - QNX 侧触摸屏驱动解析
  • C#中的集合初始化器
  • cartographer建图与定位应用
  • 专业解析 .bashrc 中 ROS 工作空间的加载顺序及其影响 ubuntu 机器人
  • Apache Doris 现行版本 Docker-Compose 运行教程
  • Flink四大基石之窗口(Window)使用详解
  • NGINX配置https双向认证(自签一级证书)