当前位置: 首页 > news >正文

pdf读取内容缺失(漏字/文字丢失)问题

项目中遇到pdf文件漏字,由于文件涉密,不能展示,简单描述一下:
比如原pff中 姓名:张三
读取结果中:空白:张三
即:原文件说是银行出具的打款证明,银行内部设置了文件权限,读取不了
但是,我们发现,相同文件权限的其它文件,可以正常读取,所以,可能不是文件权限问题

然后,还是从代码开始排查
读取代码:

def trans_pic(pdf_page_document, target_path):'''pdf_page_document: pdf_page_document = fitz.open('pdf文件路径')[页码]target_path: 保存的图片路径'''rotate = int(0)trans = fitz.Matrix(1, 1).preRotate(rotate)pm = pdf_page_document.getPixmap(matrix=trans, alpha=False) # 本行代码提示 warnpm.writePNG(target_path)pdf_fitz = fitz.open(ocr_pdf_file_path)
trans_pic(pdf_fitz[0], page_pic_path)

用代码读取问题文件,报warn

mupdf: zlib error: invalid distance too far back
mupdf: FT_New_Memory_Face(SOKSWQ+SimSun): SFNT font table missing

意思大概是:1:文件编码有问题 2:字体缺失
正常文件和问题文件的代码执行过程,仅此warn差别,其它无差别。
解决方向:
1:修改运行环境的字体库,代码加编码修改,但是是这个编码和字体,应该是很难改的[放弃];
2:让客户重新生成文件,需要跟银行交涉,成本大,且也不保证能解决[放弃];
3:从代码上解决。

然后,发现PyMuPDF版本较早,升级为最新版本,发现文件读取正常

# 注意:需要安装最新版的 PyMuPDF == 1.22.5
# !pip install PyMuPDF --upgrade
import fitz
pdf_fitz = fitz.open("./识别漏字-原文件.pdf")
rotate = int(0)
trans = fitz.Matrix(1, 1).prerotate(rotate)
pdf_page_document = pdf_fitz[0]
pm = pdf_page_document.get_pixmap(matrix=trans, alpha=False)
pm.save('./12111123.PNG')

希望遇到类似问题的同学,可以先尝试升级个版本试试

http://www.lryc.cn/news/261236.html

相关文章:

  • c#面试基础语法——现有⼀个整数number,请写⼀个⽅法判断这个整数是否是2的N次⽅
  • 27系列DGUS智能屏发布:可实时播放高清模拟信号摄像头视频
  • YOLOv8改进 | 2023主干篇 | 替换LSKNet遥感目标检测主干 (附代码+修改教程+结构讲解)
  • 【工具】VUE 前端列表拖拽功能代码
  • 人工智能与量子计算:开启未知领域的智慧之旅
  • 2023了,前端实现AI电子秤思路分析
  • CSS学习
  • Flask基本用法:一个HelloWorld,搭建服务、发起请求
  • Tomcat-安装部署(源码包安装)
  • 【Hadoop_06】MapReduce的概述与wc案例
  • Qt点击子窗口时父窗口标题栏高亮设计思路
  • 掌握iText:轻松处理PDF文档-高级篇-添加水印
  • 深度学习基本概念
  • 2023年最详细的:本地Linux服务器安装宝塔面板,并内网穿透实现公网远程登录
  • 基于ssm金旗帜文化培训学校网站的设计与开发论文
  • 【Java】猜数字小游戏
  • 汽车EDI:Chrysler EDI项目案例
  • Locust:可能是一款最被低估的压测工具
  • 用23种设计模式打造一个cocos creator的游戏框架----(十八)责任链模式
  • 100天精通风控建模(原理+Python实现)——第9天:风控建模中为什么需要特征工程?
  • 【PHP】计算某个特定时间戳距离现在的天数
  • lv12 uboot移植深化 9
  • 大数据与深度挖掘:如何在数字营销中与研究互动
  • xtu oj 1327 字符矩阵
  • 讨论用于评估DREX的五种DR指标
  • 基于SpringBoot的在线疫苗预防小程序
  • Kafka使用总结
  • 2023 年山东省职业院校技能大赛(高等职业教育) “信息安全管理与评估”样题
  • Apache Web 服务器监控工具
  • MySQL执行语句 Table ‘mysql.servers‘ doesn‘t exist