当前位置: 首页 > article >正文

Tesseract OCR 安装与中文+英文识别实现

一、下载

https://digi.bib.uni-mannheim.de/tesseract/
下载,尽量选择时间靠前的(识别更好些)。符合你的运行机(我的是windows64)
在这里插入图片描述
持续点击下一步安装,安装你认可的路径即可,没必要配置环境变量(后续在代码里指定即可)。

二、下载语言包

https://github.com/tesseract-ocr/tessdata/blob/main/chi_sim.traineddata
(这是中文的。有了它,后续的识别会更精准)
在这里插入图片描述
下载到的语言包放到安装目录的 Tesseract-OCR\tessdata 目录下
在这里插入图片描述

三、代码实现和图片优化

注意:图片的优化很重要,这会极大的提高识别。
【图片越大、像素越清晰,识别的准确度越高。
如果是小图片,需要额外做放大、锐化、对比度等处理。 本文章不做这方面的优化。
各位可以截大图和小图对比一下结果就知道了。】

下面以python实现为例:
程序:替换你的安装路径和图片地址,运行即可测试。

import pytesseract
from PIL import Image# 设置Tesseract路径(根据实际安装路径修改)
pytesseract.pytesseract.tesseract_cmd = r'C:\soft_install\Tesseract-OCR\tesseract.exe'def ocr_scan(image_path):"""对指定图片文件进行OCR识别:param image_path: 图片文件路径(支持PNG/JPG等格式)"""try:# 加载图片文件image = Image.open(image_path)# 识别文字(中英文混合)text = pytesseract.image_to_string(image, lang='chi_sim+eng')print("识别结果:\n", text.strip())except FileNotFoundError:print(f"错误:文件 '{image_path}' 不存在")except Exception as e:print(f"发生错误:{str(e)}")if __name__ == "__main__":# 直接指定图片路径(示例路径)image_path = "processed_latest.png"  # 修改为你的图片路径ocr_scan(image_path)

图片实例如下:

(图1 未经过放大和二值化阈值等处理。 会存在识别失真)
在这里插入图片描述
(图2 经过放大和二值化阈值处理。 上面的程序可以正确识别
在这里插入图片描述

http://www.lryc.cn/news/2394964.html

相关文章:

  • Cypress + React + TypeScript
  • 每个路由器接口,都必须分配所属网络内的 IP 地址,用于转发数据包
  • c++第四课(基础c)——布尔变量
  • 第2期:APM32微控制器键盘PCB设计实战教程
  • Docker-搭建MySQL主从复制与双主双从
  • LeetCode - 203. 移除链表元素
  • canvas 实现全屏倾斜重复水印
  • vue3项目 前端文件下载的两种工具函数
  • SpringAI系列 - 升级1.0.0
  • 5.31 day33
  • Vue3 + VTable 高性能表格组件完全指南,一个基于 Canvas 的高性能表格组件
  • 【七. Java字符串操作与StringBuilder高效拼接技巧】
  • 题解:洛谷 P12672 「LAOI-8」近期我们注意到有网站混淆视听
  • HTML 计算网页的PPI
  • WIN11+eclipse搭建java开发环境
  • Linux 环境下C、C++、Go语言编译环境搭建秘籍
  • MMR-Mamba:基于 Mamba 和空间频率信息融合的多模态 MRI 重建|文献速递-深度学习医疗AI最新文献
  • 2.5/Q2,Charls最新文章解读
  • Unity QFramework 简介
  • C++ 日志系统实战第五步:日志器的设计
  • @Docker Compose部署Alertmanager
  • 前端面试准备-3
  • 性能测试-jmeter实战1
  • 汽车高速通信的EMC挑战
  • [SC]SystemC在CPU/GPU验证中的应用(五)
  • [蓝桥杯C++ 2024 国 B ] 立定跳远(二分)
  • 现代网络安全攻防技术与发展现状
  • 杏仁海棠花饼的学习日记第十四天CSS
  • ESP8266远程控制:实现网络通信与设备控制
  • RabbitMQ监控:关键技术、技巧与最佳实践