当前位置: 首页 > news >正文

python转换并提取pdf文件中的图片

#安装fitz包
pip install pymupdf 

脚本如下所示:

import fitz
import re
import os
import time
import sysarguments = sys.argvfor arg in arguments:print(arg)def file_name_list(base_dir):for i, j, k in os.walk(base_dir):name = [i.replace('.pdf', '') for i in k]return namedef pdfExtractPic(filePath, pic_path):ret = {}try:iNum = 0with fitz.open(filePath) as doc:for page in range(len(doc)):for image in doc.get_page_images(page):xref = image[0]pix = fitz.Pixmap(doc, xref)iNum += 1fileName = ("%s\%d.png"%(pic_path, iNum))if pix.n < 5:pix.save(fileName)else:pix1 = fitz.Pixmap(fitz.csRGB, pix)pix1.save(fileName)pix1 = Noneexcept Exception as e:print(e)return retdef pdf2image(path, pic_path, image_name):try:with fitz.open(path) as pdf:for pg in range(0, pdf.page_count):page = pdf[pg]# 设置缩放和旋转系数,zoom_x, zoom_y取相同值,表示等比例缩放mat = fitz.Matrix(2, 2)pm = page.get_pixmap(matrix=mat, alpha=False)# if width or height > 2000 pixels, don't enlarge the imageif pm.width > 2000 or pm.height > 2000:pm = page.get_pixmap(matrix=fitz.Matrix(1, 1), alpha=False)page_num = pg + 1  # 页码从1开始new_name = '%s_img_%d.png' % (image_name, page_num)pm.save(os.path.join(pic_path, new_name)) except Exception as error:print(error)                if __name__ == '__main__':if len(arguments) < 2:print("请输入pdf所在目录的路径.")sys.exit(1)base_dir = arguments[1]name_list = file_name_list(base_dir)start = time.time()for name in name_list:image_name = namefile_name = r'\%s.pdf' % name  # PDF 文件路径file_path = base_dir + file_namepic_name = r'\pic\%s' % name  # 存放图片的文件夹pic_path = base_dir + pic_nametry:os.makedirs(pic_path)   # 根据路径,创建对应路径下的文件夹except Exception as error:print(error)        pdf2image(file_path, pic_path, image_name)#print(pic_path)pic_path += "\\sub\\"try:os.makedirs(pic_path)   # 根据路径,创建对应路径下的文件夹except Exception as error:print(error)   pdfExtractPic(file_path, pic_path)end = time.time()print('task is over: %.2f' % (end-start))

如果执行的时候报错:

RuntimeError: Directory ‘static‘ does not exist

说明fitz安装错了版本,参考:PyMuPDF: AttributeError:模块‘fitz‘没有属性‘open’_attributeerror: module 'fitz' has no attribute 'op-CSDN博客

http://www.lryc.cn/news/432200.html

相关文章:

  • 【MySQL】MySQL常用的数据类型——表的操作
  • 自然语言处理系列五十三》文本聚类算法》文本聚类介绍及相关算法
  • 计算机网络(一) —— 网络基础入门
  • 从监控到智能:EasyCVR视频汇聚平台助力加油站安全监管升级转型
  • 日志服务管理
  • ROS 工具箱系统要求
  • CSS解析:定位和层叠上下文
  • 无名管道与有名管道的区别(C语言)
  • Vue+Nginx前端项目多种方式部署一文搞定(练习源码自取)
  • MATLAB 中双引号 ““ 和单引号 ‘‘ 的区别详解
  • Linux概述、远程连接、常用命令
  • 闯关leetcode——1.Two Sum
  • 02 Shell Script注释和debug
  • 如何设计项目架构
  • OTG配置为USB盘之二
  • 如何使用 PHP 函数与其他 Web 服务交互?
  • .NetCore+vue3上传图片 Multipart body length limit 16384 exceeded.
  • 机器学习如何用于音频分析?
  • 适合程序员在周末阅读的历史书籍:理解人性和世界
  • 探索Mem0:下一代人工智能与机器学习内存管理基础设施(二)Mem0+Ollama 部署运行
  • C++入门10——stack与queue的使用
  • 詳細解析軟路由與代理爬蟲池-okeyproxy
  • 视频监控管理平台LntonAIServer视频智能分析噪声检测应用场景
  • 技术分享-商城篇-用户中心-注销修改(二十三)
  • Linux-实用指令
  • 【MySQL00】【 杂七杂八】
  • 计算机网络 第2章 物理层
  • 解决:Module build failed (from ./node_modules/sass-loader/dist/cjs.js)问题
  • 【 html+css 绚丽Loading 】 000041 三才移形三角
  • ASP.NET Core 入门教学十六 防止常见的Web攻击