当前位置: 首页 > article >正文

PDF文件转换之输出指定页到新的 PDF 文件

背景

一份 PDF 学习资料需要打印其中某几页,文件有几百兆,看到 WPS 有PDF拆分功能,但是需要会员,开了一个月会员后完成了转换。突然想到,会员到期后如果还要拆解的话,怎么办呢?PDF 文件拆解功能,自己写一个呗。

输入需求

Python 实现对 PDF从截取某几页的功能

根据输出的方案,拷贝代码到 PyCharm 编辑器:

from PyPDF2 import PdfFileWriter, PdfFileReaderdef extract_pages(input_pdf_path, output_pdf_path, start_page, end_page):"""从PDF文件中截取指定页码范围的页面,并保存为新的PDF文件。:param input_pdf_path: 输入PDF文件路径:param output_pdf_path: 输出PDF文件路径:param start_page: 开始页码(从0开始):param end_page: 结束页码(不包含该页)"""# 创建PdfFileWriter对象output = PdfFileWriter()# 打开输入PDF文件with open(input_pdf_path, "rb") as input_pdf_file:pdf_file = PdfFileReader(input_pdf_file)pdf_pages_len = pdf_file.getNumPages()# 检查页码范围是否有效if start_page < 0 or end_page > pdf_pages_len or start_page >= end_page:raise ValueError("无效的页码范围")# 添加指定页码范围的页面到输出文件for i in range(start_page, end_page):output.addPage(pdf_file.getPage(i))# 保存输出文件with open(output_pdf_path, "wb") as output_pdf_file:output.write(output_pdf_file)# 示例调用
input_pdf_path = "input.pdf"
output_pdf_path = "output.pdf"
start_page = 0  # 从第一页开始(页码从0开始)
end_page = 5    # 截止到第5页(不包含第5页)extract_pages(input_pdf_path, output_pdf_path, start_page, end_page)

依赖安装及运行

第一步,执行命令pip install PyPDF2 完成依赖的安装。

第二步,修改 input_pdf_path 、output_pdf_path 及页码信息。

第三步,执行脚本,有报错:

  1. PdfFileWriter is deprecated and was removed in PyPDF2 3.0.0. Use PdfWriter instead.
  2. PdfFileReader is deprecated and was removed in PyPDF2 3.0.0. Use PdfReader instead.
  3. reader.getNumPages is deprecated and was removed in PyPDF2 3.0.0. Use len(reader.pages) instead.
  4. reader.getPage(pageNumber) is deprecated and was removed in PyPDF2 3.0.0. Use reader.pages[page_number] instead.
  5. addPage is deprecated and was removed in PyPDF2 3.0.0. Use add_page instead.

按照提示,修改废弃方法为最新方法后的代码如下:

from PyPDF2 import PdfWriter, PdfReaderdef extract_pages(input_pdf_path, output_pdf_path, start_page, end_page):"""从PDF文件中截取指定页码范围的页面,并保存为新的PDF文件。:param input_pdf_path: 输入PDF文件路径:param output_pdf_path: 输出PDF文件路径:param start_page: 开始页码(从0开始):param end_page: 结束页码(不包含该页)"""# 创建PdfWriter对象output = PdfWriter()# 打开输入PDF文件with open(input_pdf_path, "rb") as input_pdf_file:pdf_file = PdfReader(input_pdf_file)pdf_pages_len = len(pdf_file.pages)# 检查页码范围是否有效if start_page < 0 or end_page > pdf_pages_len or start_page >= end_page:raise ValueError("无效的页码范围")# 添加指定页码范围的页面到输出文件for i in range(start_page, end_page):output.add_page(pdf_file.pages[i])# 保存输出文件with open(output_pdf_path, "wb") as output_pdf_file:output.write(output_pdf_file)# 示例调用
input_pdf_path = "/Applications/2022MyTextFiles/A.pdf"
output_pdf_path = "/Applications/2022MyTextFiles/B.pdf"
start_page = 0  # 从第一页开始(页码从0开始)
end_page = 5  # 截止到第5页(不包含第5页)extract_pages(input_pdf_path, output_pdf_path, start_page, end_page)

运行正常,搞定了!

白开了一个月的会员啊!

http://www.lryc.cn/news/2392983.html

相关文章:

  • 浏览器之禁止打开控制台【F12】
  • 进阶智能体实战九、图文需求分析助手(ChatGpt多模态版)(帮你生成 模块划分+页面+表设计、状态机、工作流、ER模型)
  • GEARS以及与基础模型结合
  • SFINAE(替换并不是错误)机制详解详解
  • 怎么用外网打开内网的网址?如在异地在家连接访问公司局域网办公网站
  • 计算机网络 | 1.1 计算机网络概述思维导图
  • AI对软件工程的影响及未来发展路径分析报告
  • redis缓存与数据库协调读写机制设计
  • 最悉心的指导教程——阿里云创建ECS实例教程+Vue+Django前后端的服务器部署(通过宝塔面板)
  • 【Python】os模块
  • Syslog 全面介绍及在 C 语言中的应用
  • windows中Redis、MySQL 和 Elasticsearch启动并正确监听指定端口
  • Paimon远程文件系统连接机制解析
  • 学者观察 | Web3.0的技术革新与挑战——北京理工大学教授沈蒙
  • pycharm终端遇不显示虚拟环境的问题
  • 聊聊网络变压器的浪涌等级标准是怎样划分的呢?
  • 2025年Google I/O大会上,谷歌展示了一系列旨在提升开发效率与Web体验的全新功能
  • ONLYOFFICE文档API:编辑器的品牌定制化
  • HTTP/HTTPS与SOCKS5三大代理IP协议,如何选择最佳协议?
  • 远程调用 | OpenFeign+LoadBalanced的使用
  • NSSCTF [NISACTF 2022]ezheap
  • ADB推送文件到指定路径解析
  • 【HarmonyOS Next之旅】DevEco Studio使用指南(二十七) -> 开发云函数
  • ansible中的inventory.ini 文件详解
  • 基于AOD-Net与GAN的深度学习去雾算法开发
  • Rust 学习笔记:闭包
  • c# 获取电脑 分辨率 及 DPI 设置
  • 基于频分复用导频的MMSE信道估计方法设计与仿真
  • 低代码开发模式下的应用交付效率优化:拖拽式交互机制研究
  • STP配置