当前位置: 首页 > news >正文

Linux笔记--基于OCRmyPDF将扫描件PDF转换为可搜索的PDF

1--官方仓库

https://github.com/ocrmypdf/OCRmyPDF

2--基本步骤

# 安装ocrmypdf库
sudo apt install ocrmypdf# 安装简体中文库
sudo apt-get install tesseract-ocr-chi-sim# 转换
# -l 表示使用的语言
# --force-ocr 防止出现以下错误:ERROR - PriorOcrFoundError: page already has text! - aborting (use --force-ocr to force OCR)
# input.pdf 表示待转换的pdf
# output.pdf 表示转换后保存的pdf
ocrmypdf -l chi_sim input.pdf output.pdf --force-ocr

3--常见错误

Error1:

ERROR - PriorOcrFoundError: page already has text! - aborting (use --force-ocr to force OCR)

Solution:

添加--force-ocr

ocrmypdf -l chi_sim input.pdf output3.pdf --force-ocr

http://www.lryc.cn/news/491262.html

相关文章:

  • Unity 导出 Xcode 工程 修改 Podfile 文件
  • UE5 slate BlankProgram独立程序系列
  • 内存不足引发C++程序闪退崩溃问题的分析与总结
  • C++ —— 以真我之名 如飞花般绚丽 - 智能指针
  • Linux中安装InfluxDB
  • nginx服务器实现上传文件功能_使用nginx-upload-module模块
  • ORB-SLAM2源码学习:Initializer.cc:Initializer::ComputeF21地图初始化——计算基础矩阵
  • C# 读取多条数据记录导出到 Word标签模板之图片输出改造
  • NSSCTF web刷题
  • 对象排序得到方式
  • Day2 洛谷1035+1047+1085+1089+1150+1151
  • Linux:进程间通信之进程池和日志
  • 详细介绍HTTP与RPC:为什么有了HTTP,还需要RPC?
  • Paddle Inference部署推理(十二)
  • 外观模式 (Facade Pattern)
  • 人工智能-深度学习-Torch框架-手动构建回归流程
  • SpringBoot源码解析(五):准备应用环境
  • MySQL面试-1
  • nginx配置不缓存资源
  • PHP导出EXCEL含合计行,设置单元格格式
  • RabbitMQ 之 死信队列
  • 【创建型设计模式】单例模式
  • Charles抓包工具-笔记
  • Go语言使用 kafka-go 消费 Kafka 消息教程
  • 【论文笔记】Number it: Temporal Grounding Videos like Flipping Manga
  • C语言菜鸟入门·关键字·int的用法
  • 基于企业微信客户端设计一个文件下载与预览系统
  • 昇思MindSpore第七课---文本解码原理
  • C# 数据结构之【图】C#图
  • 传输控制协议(TCP)和用户数据报协议(UDP)