当前位置: 首页 > news >正文

python:PyPDF2 将多个图片转换为pdf,再合并成一个PDF文件

承上一篇:java:pdfbox 3.0 去除扫描版PDF中文本水印

# 导出扫描版PDF文件中每页的图片文件

java -jar pdfbox-app-3.0.3.jar export:images -prefix=test -i your_book.pdf
导出
Writing image: test-1.jpg
Writing image: test-2.jpg
Writing image: test-3.png
……
pip install Pillow
pip install pypdf2
  pypdf2-3.0.1-py3-none-any.whl (232 kB)

#  将多个图片转换为pdf,再合并成一个PDF文件

编写 merge_pdf2.py  如下

# -*- coding: utf-8 -*-
""" PyPDF2 将多个图片转换为pdf,再合并成一个PDF文件 """
import os
import re
from PIL import Image
from PyPDF2 import PdfMergerimages_dir = "." # imgs
tmpdir = r"\tmp" # Win 10def revise(s):""" 修正图片文件名中的数字,假设0<页数<=999 """prefix = s[0:5]d = s.split('-')[1].split('.')[0]ext = '.pdf'# 数字前补零if len(d) ==1:d = '00'+delif len(d) ==2:d = '0' +delse:passreturn prefix + d + extdef trans_jpg2pdf(jpg_list: list) -> list:"""jpg图片转换成 pdfArgs:jpg_list (list): 图片文件列表Returns:list: 图片转换后的 pdf文件列表"""pdf_list = []for jpg in jpg_list:jpg_path = os.path.join(images_dir, jpg)pdf_file = revise(jpg) # 修正后的pdf文件名pdf_path = os.path.join(tmpdir, pdf_file)if os.path.exists(pdf_path):os.remove(pdf_path)pdf_list.append(pdf_path)im = Image.open(jpg_path)im.save(pdf_path, 'PDF', resolution=100.0)return pdf_listdef merge_pdf(pdf_list: list, result_pdf: str = "result.pdf"):""" 合并 pdf文件Args:pdf_list (list): pdf文件列表result_pdf (str): 合并后的 pdf文件名称"""sorted_list = sorted(pdf_list)f_merger = PdfMerger()for pdf in sorted_list:print(pdf)f_merger.append(pdf)if os.path.exists(result_pdf):os.remove(result_pdf)f_merger.write(result_pdf)if __name__ == '__main__':jpg_list = [f for f in os.listdir(images_dir) if f.endswith(".jpg") or f.endswith(".png")]pdf_list = trans_jpg2pdf(jpg_list)merge_pdf(pdf_list, "result.pdf")

运行 python merge_pdf2.py 
生成 result.pdf ,打开 result.pdf 看不见“文本水印”了。

http://www.lryc.cn/news/456364.html

相关文章:

  • Python精选200Tips:186-190
  • C、C++常用数据结构:链表
  • 【devops】devops-ansible之剧本变量使用
  • 《Linux从小白到高手》理论篇:一文概览常用Linux重要配置文件
  • 采购管理流程:掌握最后阶段的关键要点
  • cherry-markdown开源markdown组件详细使用教程
  • Android SystemUI组件(10)禁用/重启锁屏流程分析
  • 【Geeksend邮件营销】外贸邮件中的一些常用语
  • 配置静态ip
  • [LeetCode] LCR170. 交易逆序对的总数
  • 大开眼界,原来指针还能这么玩?
  • 揭秘选择知识产权管理系统的常见误区,避免踩坑
  • 计算机组成原理之存储器的分类
  • Linux(不同版本系统包含Ubuntu)下安装mongodb详细教程
  • 如何扫描HTTP代理:步骤与注意事项
  • 【分布式微服务云原生】gRPC与Dubbo:分布式服务通信框架的双雄对决
  • Python | Leetcode Python题解之第450题删除二叉搜索树中的节点
  • [Linux]从零开始的网站搭建教程
  • 牛客——xay loves or与 __builtin_popcount的使用
  • Docker学习和部署ry项目
  • Linux中设置cd命令后直接显示当前目录下的所有文件
  • 【RTCP】报文学习笔记
  • Solidity优质例子(二)物流的增删改查智能合约(附truffle测试)
  • 对android binder的一些疑问及解答
  • 主流麦克风阵列有哪些?
  • 几个快速压缩图片大小的方法!
  • 怎么避免在pod产生-派生炸弹(Fork Bomb)? k8s(kubernetes)
  • MySQL中的嵌套查询
  • win10 提示pl2303hxa已停产,请联系供货商解决方案
  • 浙大数据结构:07-图5 Saving James Bond - Hard Version