当前位置: 首页 > news >正文

解决解析PDF编码报错(以pdfminer为例):UnicodeDecodeError: ‘gbk‘ codec can‘t decode byte xxx

解决方法

博主使用的是pdfminer解析PDF文档,这个解决方法是通用的,只需要使PDFParser传入的文件为二进制文件即可,示例程序:

from pdfminer.pdfparser import PDFParserpdf_parser = PDFParser(open("pdf文件.pdf", "rb"))

问题解析

网上down下来的PDF在解析的时候会出现这个问题,导致原来解析程序的逻辑无法读取新的pdf,因此统一修改解析的程序为

pdf_parser = PDFParser(open("pdf文件.pdf", "rb"))

即可解决一些稀奇古怪的PDF问题

http://www.lryc.cn/news/241488.html

相关文章:

  • chatGPT2:如何构建一个可以回答有关您网站问题的 AI 嵌入(embeddings)
  • Vue3-新特性defineOptions和defineModel
  • 【计算机基础】通过插件plantuml,实现在VScode里面绘制状态机
  • Linux常用基础命令及重要目录,配置文件功能介绍
  • Oracle登录认证方式详解
  • ate测试原理及ate测试系统(软件)知识科普 -纳米软件
  • Linux | 创建 | 删除 | 查看 | 基本命名详解
  • 搭配:基于OpenCV的边缘检测实战
  • AI大发展:人机交互、智能生活全解析
  • Django DRF序列化器serializer
  • 【开源】基于JAVA的衣物搭配系统
  • Spark---基于Standalone模式提交任务
  • webrtc的RTCPeerConnection使用
  • 【视觉SLAM十四讲学习笔记】第三讲——Eigen库
  • Ubuntu开机显示recovering journal,进入emergency mode
  • C++_String增删查改模拟实现
  • LeeCode前端算法基础100题(2)- 最多水的容器
  • 排序算法--归并排序
  • 【LeetCode:1410. HTML 实体解析器 | 模拟+哈希表+字符串+库函数】
  • 基于SSM的公司仓库管理系统(有报告)。Javaee项目
  • spark数据倾斜的解决思路
  • Python武器库开发-前端篇之html概述(二十八)
  • 安防视频EasyCVR平台太阳能供电+4G摄像头视频监控方案的建设
  • 12.位运算的性质(异或的性质)
  • 国标直流充电枪9孔分别啥意思?
  • 关于 Google AMP 和 SEO
  • 【SpringMVC】 对请求的不同响应
  • SQL进阶学习
  • 邦芒解析:做好职场规划防止跳槽失败
  • 基于springboot实现实习管理系统的设计与实现项目【项目源码+论文说明】计算机毕业设计