当前位置：首页 > news >正文

一款支持80+语言，包括：拉丁文、中文、阿拉伯文、梵文等开源OCR库

news 2025/8/22 1:01:49

大家好，今天给大家分享一个基于PyTorch的OCR库EasyOCR，它允许开发者通过简单的API调用来读取图片中的文本，无需复杂的模型训练过程。

项目介绍

EasyOCR 是一个基于Python的开源项目，它提供了一个简单易用的光学字符识别（OCR）工具，支持超过80种语言以及多种书写脚本，包括拉丁文、中文、阿拉伯文、天城体、西里尔文等。

EasyOCR 利用PyTorch作为其深度学习执行框架，展示了对人工智能和机器学习在文本识别领域的强大应用能力。

核心特点

多语言支持：支持超过 80 种语言和所有流行的书写系统，包括拉丁文、中文、阿拉伯文、梵文、西里尔文等，可满足全球用户处理不同语言文档的需求。

高准确性：对于正常图片文本识别，准确率能达到较高水平，无论是手写体还是印刷体都能够较为准确地识别，其深度学习模型能够学习不同语言的字符特征和书写风格，从而提高识别精度。

文本检测与识别功能兼具：不仅可以识别图片中的文本内容，还能检测出文本框的位置，以左上、右上、右下、左下坐标顺序依次返回，可应用于多种需要定位文本的场景，如文档排版分析、图像内容理解等。

支持 GPU 加速：配置好相应的 CUDA、PyTorch、Torchvision Python 环境后，可使用 GPU 进行加速，识别速度相比 CPU 快 6~7 倍，能够提高处理效率，更快地完成大量图片的文本识别任务。

易于使用：将所有功能封装到一个类中，通过简单的函数调用即可实现文本识别和检测。并且已经上传到 PyPI，可通过 pip 命令完成安装，使用 Python 调用非常方便。

技术架构

关键技术

CRAFT 算法：用于文本检测。
CRNN 模型：用于文本识别，由特征提取、序列标注和解码三个组件组成。
PyTorch：用于深度学习模型的训练和推理。

框架

Python：主要编程语言。
PyTorch：深度学习框架。
OpenCV：用于图像处理。

应用场景

文档数字化：帮助用户将纸质文档快速、准确地转换为电子文档，便于存储、检索和共享，提高文档管理的效率和便利性。

数据录入：能够自动化数据录入流程，减少人工输入的错误和时间成本，适用于处理大量表单、报表等数据的场景，如企业的财务数据录入、物流信息录入等。

多语言翻译：自动识别并提取不同语言的文本，为多语言翻译提供基础，方便跨国交流和信息共享，例如在处理跨国公司的文件、国际学术文献等方面有很大的应用价值。

内容审核：可以自动识别图像中的文本内容，用于内容审核和合规性检查，帮助用户快速筛选出包含特定关键词或不符合规定的文本信息，如在社交媒体、网络平台等的内容监管方面发挥作用。

其他场景：还可应用于金融领域的票据识别、互联网爬虫中的文本提取、支付系统中的二维码和条形码识别、大数据处理中的文本抓取和解析、车辆车牌识别等多种业务场景。

安装使用

安装

安装依赖

Python 环境：确保你已经安装了 Python 3.6 或更高版本。
CUDA 和 cuDNN（可选）：如果你有 NVIDIA GPU 并希望使用 GPU 加速，请安装 CUDA 和 cuDNN。
PyTorch：EasyOCR 依赖于 PyTorch，因此需要先安装 PyTorch。

步骤 1：安装 PyTorch

首先，你需要安装 PyTorch。你可以根据你的系统配置和是否使用 GPU，在 PyTorch 官网上找到合适的安装命令。例如，如果你使用的是 Windows 系统并且没有 GPU，可以使用以下命令：

pip install torch torchvision torchaudio

步骤 2：安装 EasyOCR

安装完 PyTorch 后，你可以通过 pip 安装 EasyOCR。

pip install easyocr

使用

可通过下列代码进行简单验证。

import easyocr
reader = easyocr.Reader(['ch_tra','en']) # 加载简体中文和英文模型
result = reader.readtext('chinese.jpg')

以此图片为例

将输出下列结果

[([[448, 111], [917, 111], [917, 243], [448, 243]],'高鐵左營站',0.9247),
([[454, 214], [629, 214], [629, 290], [454, 290]], 'HSR', 0.9931),
([[664, 222], [925, 222], [925, 302], [664, 302]],'Station',0.3260),
([[312, 306], [937, 306], [937, 445], [312, 445]],'汽車臨停接送區',0.7417),
([[482, 418], [633, 418], [633, 494], [482, 494]],'Kiss',0.9577),
([[331, 421], [453, 421], [453, 487], [331, 487]], 'Car', 0.9630),
([[653, 429], [769, 429], [769, 495], [653, 495]], 'and', 0.9243),
([[797, 429], [939, 429], [939, 497], [797, 497]],'Ride',0.6400)]

你可以通过设置detail=0输出简单结果

result = reader.readtext('chinese.jpg', detail=0)

如果你有 GPU 并希望使用 GPU 加速，可以在创建 Reader 实例时设置 gpu=True。

reader = easyocr.Reader(['ch_tra','en'], gpu=True)

总结

EasyOCR作为一个轻量级但功能强大的OCR库，为Python开发者提供了便捷的文字识别方案。虽然在某些复杂的场景下，EasyOCR的识别准确率可能不如一些商业OCR引擎，但对于大部分日常应用场景来说，EasyOCR已经足够胜任。相信随着EasyOCR的不断发展，它将在更多领域发挥其独特的作用。

项目地址

https://github.com/JaidedAI/EasyOCR

一款支持80+语言，包括：拉丁文、中文、阿拉伯文、梵文等开源OCR库 - BTool博客 - 在线工具软件，为开发者提供方便

查看全文

http://www.lryc.cn/news/496385.html

Flink四大基石之CheckPoint(检查点) 的使用详解

JVM 常见面试题及解析（2024）

Python 调用 Umi-OCR API 批量识别图片/PDF文档数据

K8S资源之secret资源

QT：信号和槽01

针对Qwen-Agent框架的Function Call及ReAct的源码阅读与解析：Agent基类篇

XML 查看器：深入理解与高效使用

《Vue零基础入门教程》第十五课：样式绑定

以AI算力助推转型升级，暴雨亮相CCF中国存储大会

【VMware】Ubuntu 虚拟机硬盘扩容教程（Ubuntu 22.04）

3D Bounce Ball Game 有什么技巧吗？

【SQL】实战--组合两个表

Spring基于注解实现 AOP 切面功能

设计模式更新ing

Elasticsearch 进阶

【AI】Sklearn

通过 JNI 实现 Java 与 Rust 的 Channel 消息传递

【老白学 Java】对象的起源 Object

Ubuntu Linux操作系统

SpringBoot 打造的新冠密接者跟踪系统：企业复工复产防疫保障利器

嵌入式Linux（SOC带GPU树莓派）无窗口系统下搭建 OpenGL ES + Qt 开发环境，并绘制旋转金字塔

webGL入门教程_06变换矩阵与绕轴旋转总结

生成树详解（STP、RSTP、MSTP）

【QNX+Android虚拟化方案】128 - QNX 侧触摸屏驱动解析

C#中的集合初始化器

cartographer建图与定位应用

专业解析 .bashrc 中 ROS 工作空间的加载顺序及其影响 ubuntu 机器人

Apache Doris 现行版本 Docker-Compose 运行教程

Flink四大基石之窗口（Window）使用详解

NGINX配置https双向认证(自签一级证书)