当前位置: 首页 > news >正文

PyMuPDF 操作手册 - 05 PDF的OCR识别等

文章目录

  • 六、PyMuPDF的OCR识别
    • 6.1 使用 Tesseract进行OCR
    • 6.2 使用MuPDF进行OCR
    • 6.3 使用 Python 包easyocr进行OCR识别
    • 6.4 使用 Python ocrmypdf包进行OCR识别
    • 6.5 将图像批量OCR并转换为PDF
  • 七、PDF附加、嵌入、批注等
    • 7.1 附加文件
    • 7.2 嵌入文件
    • 7.3 从文档中获取所有批注

六、PyMuPDF的OCR识别

https://github.com/pymupdf/PyMuPDF-Utilities/tree/master/OCR
在这里插入图片描述

使用 PyMuPDF 和 OCR 的演示脚本
从 1.18.0 版本开始,MuPDF 支持动态调用 Tesseract OCR 来解释页面或图像上的文本。从其版本 1.19.0 开始,PyMuPDF 已开始支持此接口。

6.1 使用 Tesseract进行OCR

此演示脚本读取包含无法解释的字符的文档文本。这些字符被编码为 MuPDF。在每次遇到与此字符的文本跨度时,都会通过 Python 调用 Tesseract OCR 进行解释。脚本和 Tesseract 安装之间没有其他/直接连接。chr(65533)subprocess

脚本的方法是这样的

  • 将页面的文本解压缩到 via .dictget_text(“dict”, flags=0)[“blocks”]
  • 遍历字典并检查 span 文本是否包含 .chr(65533)
  • 在这种情况下,请创建跨度的 bbox 的像素图,并调用 Tesseract 来对此图像进行 OCR。
  • 打印新旧文本以进行视觉比较。

每个此类 OCR 操作的平均持续时间约为 0.65 秒(Windows 10,64 位,

http://www.lryc.cn/news/378725.html

相关文章:

  • Vue与TypeScript的配合:如何在Vue项目中使用TypeScript,利用静态类型提高代码的可维护性
  • 华为仓颉语言介绍
  • 《昇思 25 天学习打卡营第 3 天 | 张量 Tensor 》
  • free命令——显示系统内存使用情况
  • 麒麟移动运行环境(KMRE)——国内首个开源的商用移固融合“Android生态兼容环境”正式开源
  • print(“{}{}“.format())
  • 2-12 基于CV模型卡尔曼滤波、CT模型卡尔曼滤波、IMM模型滤波的目标跟踪
  • 序列1bp插入有什么影响
  • CVPR 2024盛况空前,上海科技大学夺得最佳学生论文奖,惊艳全场
  • HTTP 状态码详解及使用场景
  • 【Windows】配置Flutter开发环境
  • 云渲染与传统渲染器的较量与融合
  • 比较新旧两数组列表,新增或删除数据库记录(ai生成)
  • Java基础 - 练习(五)根据今天日期获取一周内的日期(基姆拉尔森公式)
  • HTML5 新元素
  • 虹软ArcSoft—真正离线免费的人脸识别SDK
  • [环境配置]vscode通过ssh连接autodl进行项目开发
  • 2024中国宁波-东南亚职业教育产教协同发展校企对接会举办
  • Web前端、后端与建站:全方位解析四大基石、五大挑战、六大技术与七大策略
  • nginx出现504 Gateway Time-out错误的原因分析及解决
  • 基于STM32的智能插座项目
  • VR虚拟现实(Virtual Reality)
  • pywinauto入门指南:轻松掌握Windows GUI自动化
  • 分布式缓存框架Hazelcast与Java整合详解
  • ApplicationEventPublisher的使用、Spring事件发布
  • RFID优缺点和应用场景
  • 可信启动Trusted Board Boot
  • JVM的类加载机制
  • C++中的八大设计原则
  • 2024广东省职业技能大赛云计算赛项实战——Minio服务搭建