当前位置: 首页 > news >正文

python提取pdf图片

import fitz
import re
import osdef save_pdf_img(path, save_path):'''path: pdf的路径save_path : 图片存储的路径'''# 使用正则表达式来查找图片checkXO = r"/Type(?= */XObject)"checkIM = r"/Subtype(?= */Image)"# 打开pdfdoc = fitz.open(path)# 图片计数imgcount = 0# 获取对象数量长度lenXREF = doc.xref_length()# 打印PDF的信息print("文件名:{}, 页数: {}, 对象: {}".format(path, len(doc), lenXREF - 1))# 遍历每一个图片对象for i in range(1, lenXREF):# 定义对象字符串text = doc.xref_object(i)#         print(i,text)isXObject = re.search(checkXO, text)# 使用正则表达式查看是否是图片isImage = re.search(checkIM, text)# 如果不是对象也不是图片,则continueif not isXObject or not isImage:continueimgcount += 1# 根据索引生成图像pix = fitz.Pixmap(doc, i)# 根据pdf的路径生成图片的名称new_name = path.replace('\\', '_') + "_img{}.png".format(imgcount)new_name = new_name.replace(':', '')# 如果pix.n<5,可以直接存为PNGif pix.n < 5:pix.save(os.path.join(save_path, new_name))# 否则先转换CMYKelse:pix0 = fitz.Pixmap(fitz.csRGB, pix)pix0.save(os.path.join(save_path, new_name))pix0 = None# 释放资源pix = Noneprint("提取了{}张图片".format(imgcount))# pdf路径
path = r'C:\save\1.pdf'
save_path = r'C:\save'
save_pdf_img(path, save_path)
http://www.lryc.cn/news/116524.html

相关文章:

  • Vue3 表单输入绑定简单应用
  • 如何解决 Elasticsearch 查询缓慢的问题以获得更好的用户体验
  • 近期学习练习
  • 平台安全之中间件安全
  • 芒果 TV 基于 Flink 的实时数仓建设实践
  • 尚硅谷大数据项目《在线教育之采集系统》笔记004
  • R语言4_安装BayesSpace
  • TSINGSEE青犀视频安防监控视频平台EasyCVR设备在线,视频无法播放的原因排查
  • 【算法篇C++实现】算法的时间、空间复杂度
  • On Evaluation of Embodied Navigation Agents 论文阅读
  • 【CSS 布局】水平垂直方向居中
  • Java实现轻量型Web服务器接收http协议提交的RFID读卡信息
  • 模拟实现消息队列项目(完结) -- 基于MQ的生产者消费者模型
  • 专业商城财务一体化-线上商城+进销存管理软件,批发零售全行业免费更新
  • 深度思考mysql面经
  • 2023-08-09力扣每日一题
  • [23] Instruct 3D-to-3D: Text Instruction Guided 3D-to-3D conversion
  • 设计模式行为型——访问者模式
  • vue3官网文档学习、复习笔记(快速上手)
  • 0基础学习VR全景平台篇 第81篇:全景相机-临云镜如何直播推流
  • 分数线划定
  • 考研C语言进阶题库——更新26-30题
  • 用C语言实现定积分计算(包括无穷积分/可自定义精度)
  • 使用Presto、Trino数据库时提示“The datetime zone id ‘GMT+08:00‘ is not recognised”
  • C# BeginInvoke 加 EndInvoke实现异步操作
  • “华为杯”研究生数学建模竞赛2015年-【华为杯】B题:数据的多流形结构分析(续)
  • R语言APSIM模型高级应用及批量模拟
  • 【硬件设计】模拟电子基础三--集成运算放大电路
  • JavaWeb(11)——前端综合案例5(小黑记事本)
  • 在使用TensorFlow的时候内部报错:内部某个方法或属性不存在