当前位置: 首页 > news >正文

PDFPlumber解析PDF文本报错:AssertionError: (‘Unhandled’, 6)

文章目录

      • 1、问题描述
      • 2、问题原因
      • 3、问题解决



1、问题描述


今天在使用PDFPlumber模块提取PDF文本时extract_text()方法报错,报错内容如下:

Traceback (most recent call last):......File "F:\Python\...\site-packages\pdfminer\pdffont.py", line 1091, in __init__self.unicode_map = ttf.create_unicode_map()File "F:\Python\...\site-packages\pdfminer\pdffont.py", line 826, in create_unicode_mapassert False, str(("Unhandled", fmttype))
AssertionError: ('Unhandled', 6)

报错代码如下:

import pdfplumberwith pdfplumber.open(rf'F:\...\file.pdf') as pdf:for page in pdf.pages:print(page.extract_text())

2、问题原因


经查找原因,最终确定可能是PDF文件本身的原因,具体可见这篇文章:https://github.com/jsvine/pdfplumber/discussions/994?sort=new

ChatGPT则认这种错误是因为库内部遇到了某种它无法处理的情况,ChatGPT给出的解决方案如下:

1) 更新PDFPlumber

pip install --upgrade pdfplumber

2) 检查PDF文件

确认PDF文件没有损坏,并且是文本格式的PDF而不是扫描的图像

3) 使用其他方法

可以尝试使用extract_words()extract_tables()等其他方法,这取决于你需要提取的内容类型

4) 捕获异常

添加异常处理,这样即使遇到错误也不会导致程序崩溃

try:text = page.extract_text()
except AssertionError as e:print(e)text = None

5) 尝试其他库

可以考虑使用其他PDF处理库,如PyPDF2或PyMuPDF等

在尝试了ChatGPT的一些建议后,确定可能是PDF本身的原因,因此考虑使用其他库

3、问题解决


经过尝试,最终发现PyMuPDF库可以解析使用:

import fitzwith fitz.open(rf'F:\...\file.pdf') as doc:for page in doc.pages():print(page.get_text())

看来是PDF本身的原因,我们的PDF可能已经损坏



http://www.lryc.cn/news/317157.html

相关文章:

  • 51WORLD正式落地中东,助力沙特伙伴与客户数字化升级!
  • 嵌入式学习38-数据库
  • 去除PDF论文行号的完美解决方案
  • 《ElementPlus 与 ElementUI 差异集合》icon 图标使用(包含:el-button,el-input和el-dropdown 差异对比)
  • 力扣题库第8题:去重后的最长子串
  • CSS样式中长度单位含义解析:rpx、px、vw、vh、em、rem、pt
  • 全国车辆识别代码信息API查询接口-VIN深度解析
  • python django 模型中字段设置blank, null属性值用法说明
  • 暴雨信息:可持续转型更需要“以人为本”
  • 1.2_3 TCP/IP参考模型
  • 真空泵系统数据采集远程监控解决方案
  • Python语言在编程业界的地位——《跟老吕学Python编程》附录资料
  • 基于Redis自增实现全局ID生成器(详解)
  • hadoop 总结
  • luatos框架中LVGL如何使用中文字体〈二〉编写脚本设置中文字体
  • c++单例模式和call_once函数
  • AutoMQ 携手阿里云共同发布新一代云原生 Kafka,帮助得物有效压缩 85% Kafka 云支出!
  • 力扣977. 有序数组的平方
  • VSCode设置
  • 2.2 评估方法 机器学习
  • 第一类换元法(凑微分,凑狗)【高数笔记】
  • PostgreSQL数据库优化指南
  • VScode Error Lens插件
  • Fiddler抓包教程
  • TypeScript编译选项
  • 个推与华为深度合作,成为首批支持兼容HarmonyOS NEXT的服务商
  • TypeScript开发100问?
  • 数据结构和算法:栈与队列
  • LeetCode(力扣)算法题_1261_在受污染的二叉树中查找元素
  • Topaz DeNoise AI for Mac/Win:引领图片降噪新纪元,让你的照片焕然一新!