当前位置：首页 > news >正文

python提取pdf图片

news 2025/8/11 23:01:04

import fitz
import re
import osdef save_pdf_img(path, save_path):'''path: pdf的路径save_path : 图片存储的路径'''# 使用正则表达式来查找图片checkXO = r"/Type(?= */XObject)"checkIM = r"/Subtype(?= */Image)"# 打开pdfdoc = fitz.open(path)# 图片计数imgcount = 0# 获取对象数量长度lenXREF = doc.xref_length()# 打印PDF的信息print("文件名:{}, 页数: {}, 对象: {}".format(path, len(doc), lenXREF - 1))# 遍历每一个图片对象for i in range(1, lenXREF):# 定义对象字符串text = doc.xref_object(i)#         print(i,text)isXObject = re.search(checkXO, text)# 使用正则表达式查看是否是图片isImage = re.search(checkIM, text)# 如果不是对象也不是图片，则continueif not isXObject or not isImage:continueimgcount += 1# 根据索引生成图像pix = fitz.Pixmap(doc, i)# 根据pdf的路径生成图片的名称new_name = path.replace('\\', '_') + "_img{}.png".format(imgcount)new_name = new_name.replace(':', '')# 如果pix.n<5,可以直接存为PNGif pix.n < 5:pix.save(os.path.join(save_path, new_name))# 否则先转换CMYKelse:pix0 = fitz.Pixmap(fitz.csRGB, pix)pix0.save(os.path.join(save_path, new_name))pix0 = None# 释放资源pix = Noneprint("提取了{}张图片".format(imgcount))# pdf路径
path = r'C:\save\1.pdf'
save_path = r'C:\save'
save_pdf_img(path, save_path)

http://www.lryc.cn/news/116524.html

相关文章：

Vue3 表单输入绑定简单应用

如何解决 Elasticsearch 查询缓慢的问题以获得更好的用户体验

近期学习练习

平台安全之中间件安全

芒果 TV 基于 Flink 的实时数仓建设实践

尚硅谷大数据项目《在线教育之采集系统》笔记004

R语言4_安装BayesSpace

TSINGSEE青犀视频安防监控视频平台EasyCVR设备在线，视频无法播放的原因排查

【算法篇C++实现】算法的时间、空间复杂度

On Evaluation of Embodied Navigation Agents 论文阅读

【CSS 布局】水平垂直方向居中

Java实现轻量型Web服务器接收http协议提交的RFID读卡信息

模拟实现消息队列项目(完结) -- 基于MQ的生产者消费者模型

专业商城财务一体化-线上商城＋进销存管理软件，批发零售全行业免费更新

深度思考mysql面经

2023-08-09力扣每日一题

[23] Instruct 3D-to-3D: Text Instruction Guided 3D-to-3D conversion

设计模式行为型——访问者模式

vue3官网文档学习、复习笔记（快速上手）

0基础学习VR全景平台篇第81篇：全景相机-临云镜如何直播推流

分数线划定

考研C语言进阶题库——更新26-30题

用C语言实现定积分计算(包括无穷积分/可自定义精度)

使用Presto、Trino数据库时提示“The datetime zone id ‘GMT+08:00‘ is not recognised”

C# BeginInvoke 加 EndInvoke实现异步操作

“华为杯”研究生数学建模竞赛2015年-【华为杯】B题：数据的多流形结构分析（续）

R语言APSIM模型高级应用及批量模拟

【硬件设计】模拟电子基础三--集成运算放大电路

JavaWeb（11）——前端综合案例5（小黑记事本）

在使用TensorFlow的时候内部报错：内部某个方法或属性不存在