当前位置: 首页 > news >正文

采用Python 将PDF文件按照页码进行切分并保存

工作中经常会遇到 需要将一个大的PDF文件 进行切分,比如仅需要大PDF文件的某几页 或者连续几页,一开始都是用会员版本的WPS,但是对于程序员,就是要采用技术白嫖

这里就介绍一个 python的PDF 包  PyPDF2

其安装方式也很简单  

pip install PyPDF2

安装完成后 我们给定以下代码即可进行 PDF文件 切分

def cut_pdf(pdf_path):""":return: 根据指定的PDF文件 以及指定的页面以及页面范围  将原始输入PDF文件进行按照页为单位进行截取 并保存为新文件"""import PyPDF2out_pdf = PyPDF2.PdfWriter()dst_file = f'output.pdf'conti_dict = {60: 70}  # 连续页的集合  分别是{"起始页":"结束页"}single_idx_list = [23]  # 单页的集合with open(pdf_path, 'rb') as src_file:reader = PyPDF2.PdfReader(src_file)pages = reader.pages# 保存独立的页面for i in single_idx_list:out_pdf.add_page(reader.pages[i - 1])# 保存连续的页面for i in conti_dict.keys():start_idx = iend_idx = conti_dict[i]# 针对每一对{起始:结束} 对 将其对应的PDF对象保存在列表中for p in range(start_idx - 1, end_idx):out_pdf.add_page(reader.pages[p])with open(dst_file, 'ab') as out:out_pdf.write(out)

经过验证是可行的 

我们只需要在 conti_dict 变量中 键入连续PDF页面的起止部分

以及在 single_idx_list变量中将单独的页面追加在列表中即可

http://www.lryc.cn/news/256586.html

相关文章:

  • H264视频编码原理
  • UDP实现群聊
  • 服务器部署网易开源TTS | EmotiVoice部署教程
  • 贪心算法和动态规划
  • jsp 设备预约管理系统Myeclipse开发mysql数据库web结构java编程计算机网页项目
  • Python:核心知识点整理大全10-笔记
  • Hive数据库系列--Hive数据类型/Hive字段类型/Hive类型转换
  • 在Spring Cloud中使用组件Ribbon和Feign,并分别创建子模块注册到Eureka中去
  • (JAVA)-缓冲流
  • Autosar UDS-CAN诊断开发02-1(CAN诊断帧格式类型详解、CANFD诊断帧格式类型详解、15765-2(CANTP层)的意义)
  • swing快速入门(三)
  • Swagger PHP Thinkphp 接口文档
  • 12.9每日一题(备战蓝桥杯循环结构)
  • 与时代共进退
  • Python 云服务器应用,Https,定时重启
  • pytorch 笔记:dist 和 cdist
  • Java的List中的各种浅拷贝和深拷贝问题
  • 20231207_最新已测_Centos7.4安装nginx1.24.0_安装详细步骤---Linux工作笔记066
  • 前端知识笔记(二十六)———React如何像Vue一样将css和js写在同一文件
  • Photoshop Circular Text
  • 深入解析Spring Boot中的注解@PathVariable、@RequestParam、@RequestBody的正确使用
  • Qt Location中加载地图对象
  • 4-Docker命令之docker ps
  • 你在地铁上修过bug吗?
  • CPU、MCU、MPU、DSP、FPGA各是什么?有什么区别?
  • SpringBoot之logback 在Linux系统上启动的时候,设置日志按日期分割并设置指定时间自动清除日志
  • OpenHarmony北向-让更广泛的应用开发者更容易参与
  • 数据结构之归并排序及排序总结
  • 仿windows12网盘,私有云盘部署教程,支持多种网盘
  • 深度学习 时间序列回归学习笔记