当前位置：首页 > news >正文

利用Python去除PDF水印

news 2025/8/4 22:30:37

摘要

本文介绍了如何使用 Python 中的 PyMuPDF 和 OpenCV 库来从 PDF 文件中移除水印，并将每个页面保存为图像文件的方法。我们将深入探讨代码背后的工作原理，并提供一个简单的使用示例。

导言

简介：水印在许多 PDF 文件中都很常见，但有时它们可能会干扰文档的可读性或美观性。本文将介绍一种利用 Python 编程语言移除 PDF 水印的方法。
目标：本文将介绍一个使用 PyMuPDF 和 OpenCV 库的 Python 脚本，该脚本可以自动化地将 PDF 文件中(原文件)水印移除，并将每个页面保存为单独的图像文件，然后合成为新的PDF。

背景知识

PyMuPDF：PyMuPDF 是一个 Python 绑定库，用于与 MuPDF（一款用于解析和渲染 PDF 文件的开源软件）进行交互。
OpenCV：OpenCV 是一个开源计算机视觉库，提供了许多用于图像处理和计算机视觉任务的功能。

技术细节

remove_watermark 函数
- 将图像转换为 OpenCV 格式。
- 使用颜色阈值技术寻找特定颜色范围内的水印区域。
- 进行膨胀和侵蚀操作以改善水印去除效果。
- 将图像转换回 PIL 格式并返回处理后的图像。
remove_pdf 函数
- 打开 PDF 文件并设置缩放因子。
- 遍历每一页的内容，将其转换为图像格式。
- 对每个图像应用 remove_watermark 函数，移除水印。
- 将处理后的图像保存到指定文件夹中。

代码示例

from itertools import product
import fitz  # PyMuPDF
from PIL import Image
import numpy as np
import cv2
import osdef remove_watermark(image, lower_bound, upper_bound):# 转换为OpenCV格式open_cv_image = np.array(image)open_cv_image = cv2.cvtColor(open_cv_image, cv2.COLOR_RGB2BGR)# 寻找特定颜色范围内的区域mask = cv2.inRange(open_cv_image, lower_bound, upper_bound)# 膨胀和侵蚀操作，用于改善水印去除效果kernel = np.ones((3, 3), np.uint8)mask = cv2.dilate(mask, kernel, iterations=1)mask = cv2.erode(mask, kernel, iterations=1)open_cv_image[mask != 0] = [255, 255, 255]# 转换回PIL格式return Image.fromarray(cv2.cvtColor(open_cv_image, cv2.COLOR_BGR2RGB))def remove_pdf(pdf_file, output_folder, dpi=1800):if not os.path.exists(output_folder):os.makedirs(output_folder)zoom = dpi / 72  # 计算缩放因子mat = fitz.Matrix(zoom, zoom)  # 创建缩放矩阵pdf = fitz.open(pdf_file)for page_num, page in enumerate(pdf):pixmap = page.get_pixmap(matrix=mat)  # 使用缩放矩阵提高DPIimg = Image.frombytes("RGB", [pixmap.width, pixmap.height], pixmap.samples)# 定义水印颜色的上下界（需要根据实际情况调整）lower_bound = np.array([168, 168, 168])upper_bound = np.array([172, 172, 172])# 去除水印img = remove_watermark(img, lower_bound, upper_bound)img_path = os.path.join(output_folder, f"{page_num}.png")img.save(img_path, format="PNG")print(f"第{page_num}页水印去除完成")pdf.close()# 使用示例pdf_path = input("请输入 PDF 地址：")
output_path = input("请输入保存处理后的图片的文件夹地址：")
remove_pdf(pdf_path, output_path)