当前位置：首页 > news >正文

使用 Apache PDFBox 操作PDF文件

news 2025/8/21 23:39:49

简介

Apache PDFBox库是一个开源的Java工具，专门用于处理PDF文档。它允许用户创建全新的PDF文件，编辑现有的PDF文档，以及从PDF文件中提取内容。此外，Apache PDFBox还提供了一些命令行实用工具。

Apache PDFBox提供了创建、渲染、打印、合并、拆分、加密、解密、签名等多种操作PDF文件的功能。PDFBox还包括一个命令行工具，可以用于执行各种PDF处理任务。此外，它还支持文本提取和搜索，以及将PDF转换为其他格式，如图片和文本。PDFBox广泛应用于企业和开发者构建PDF处理相关的应用程序和工具。

Apache PDFBox具备以下主要功能：

从PDF文件中提取Unicode文本。
将单个PDF文件拆分成多个文件，或将多个PDF文件合并成一个。
从PDF表单中提取数据，或填写PDF表单。
验证PDF文件是否符合PDF/A-1b标准。
使用标准的Java打印API打印PDF文件。
将PDF文件另存为图像格式，如PNG或JPEG。
从零开始创建PDF文件，包括嵌入字体和图像。
对PDF文件进行数字签名。

导入

首先，我们需要确保已经将PDFBox库添加到我的Java项目中。如果你使用的是maven，那么在pom.xml中添加如下依赖：

<dependency><groupId>org.apache.pdfbox</groupId><artifactId>pdfbox</artifactId><version>2.0.28</version>
</dependency>

这里使用的版本是：2.0.28。

Talk is cheap. Show me the code.

接下来，我们将通过代码示例展示如何使用Apache PDFBox来创建PDF文档、读取PDF文件、插入图片以及读取图片。

创建PDF文档

我们可以使用以下代码创建一个简单的PDF文档：

import java.io.File;
import java.io.IOException;import org.apache.pdfbox.pdmodel.PDDocument;
import org.apache.pdfbox.pdmodel.PDPage;
import org.apache.pdfbox.pdmodel.font.PDType1Font;public class CreatePDF {public static void main(String[] args) {PDDocument document = new PDDocument();PDPage page = new PDPage();document.addPage(page);PDType1Font font = PDType1Font.HELVETICA_BOLD;try {PDPageContentStream contentStream = new PDPageContentStream(document, page);contentStream.beginText();contentStream.setFont(font, 12);contentStream.newLineAtOffset(100, 700);contentStream.showText("Hello, World!");contentStream.endText();contentStream.close();document.save(new File("one-more.pdf"));document.close();System.out.println("PDF created successfully.");} catch (IOException e) {e.printStackTrace();}}
}

这个代码段创建一个新的PDF文档，并在其第一页上写入"Hello, World!"。我使用了Helvetica Bold字体，并将其大小设置为12。

接下来，我将文本显示在PDF页面上，并使用contentStream.close()方法关闭PDPageContentStream对象。

最后，我将文档保存为"one-more.pdf"文件，然后关闭PDDocument对象。效果如下图：

万猫学社

读取PDF文件

我们可以使用以下代码读取PDF文件中的全部内容：

import java.io.File;
import java.io.IOException;
import org.apache.pdfbox.pdmodel.PDDocument;
import org.apache.pdfbox.text.PDFTextStripper;public class ReadPDFExample {public static void main(String[] args) {// 创建文件对象File file = new File("one-more.pdf");try {// 创建 PDF 文档对象PDDocument document = PDDocument.load(file);// 创建 PDF 文本剥离器PDFTextStripper stripper = new PDFTextStripper();// 获取 PDF 文件的全部内容String text = stripper.getText(document);// 输出 PDF 文件的全部内容System.out.println(text);// 关闭 PDF 文档对象document.close();} catch (IOException e) {e.printStackTrace();}}
}

首先，创建一个文件对象，然后使用 PDDocument 类的静态方法 load() 加载 PDF 文件并创建一个 PDF 文档对象。

然后，我们创建一个 PDFTextStripper 对象，并使用它的 getText() 方法获取 PDF 文件的全部内容。

最后，我们输出 PDF 文件的全部内容，并关闭 PDF 文档对象。

输出内容就是之前我们写入的：

Hello, World!

插入图片

我们可以使用以下代码在PDF文件中插入图片：

import java.io.File;
import java.io.IOException;import org.apache.pdfbox.pdmodel.PDDocument;
import org.apache.pdfbox.pdmodel.PDPage;
import org.apache.pdfbox.pdmodel.graphics.image.PDImageXObject;public class InsertImageInPDF {public static void main(String[] args) {try {// 加载PDF文件PDDocument document = PDDocument.load(new File("one-more.pdf"));// 获取第一页PDPage page = document.getPage(0);// 加载图像文件PDImageXObject image = PDImageXObject.createFromFile("one-more.jpg", document);// 在指定位置插入图像PDPageContentStream contentStream = new PDPageContentStream(document, page, AppendMode.APPEND, true, true);contentStream.drawImage(image, 200, 500, image.getWidth(), image.getHeight());// 关闭流contentStream.close();// 保存修改后的PDF文件document.save("one-more-jpg.pdf");// 关闭文档document.close();System.out.println("PDF created successfully.");} catch (IOException e) {e.printStackTrace();}}
}

在这个例子中，我们加载了一个名为“one-more.pdf”的PDF文件，获取了第一页，并加载了一个名为“one-more.jpg”的图像文件。

然后，我们使用drawImage()方法在PDF文档中的指定位置插入了图像。

最后，我们将修改后的文档保存到名为“one-more-jpg.pdf”的新文件中，并关闭文档。效果如下图：

读取图片

我们可以使用以下代码在PDF文件中读取图片：

import java.io.IOException;
import java.util.List;import org.apache.pdfbox.pdmodel.PDDocument;
import org.apache.pdfbox.pdmodel.PDPage;
import org.apache.pdfbox.pdmodel.graphics.image.PDImageXObject;public class ReadPDFImagesExample {public static void main(String[] args) {try {// 加载PDF文件PDDocument document = PDDocument.load(new File("one-more-jpg.pdf"));PDPageTree pageTree = document.getPages();// 遍历每个页面for (PDPage page : pageTree) {int pageNum = pageTree.indexOf(page) + 1;int count = 1;System.out.println("Page " + pageNum + ":");for (COSName xObjectName : page.getResources().getXObjectNames()) {PDXObject pdxObject = page.getResources().getXObject(xObjectName);if (pdxObject instanceof PDImageXObject) {PDImageXObject image = (PDImageXObject) pdxObject;System.out.println("Found image with width "+ image.getWidth()+ "px and height "+ image.getHeight()+ "px.");String fileName = "one-more-" + pageNum + "-" + count + ".jpg";ImageIO.write(image.getImage(), "jpg", new File(fileName));count++;}}}document.close();} catch (IOException e) {e.printStackTrace();}}
}

在此示例中，我们使用PDDocument类从指定的PDF文件中加载文档，并遍历每个页面以查找其中的图像。

对于每个页面，我们获取其资源（包括图像）并检查其中是否存在图像。

如果存在，则我们遍历它们，并使用PDImageXObject对象获取它们的属性，例如宽度和高度。

然后，使用ImageIO把图片保存到本地文件系统。

输出如下：

Page 1:
Found image with width 150px and height 150px.

结尾

Apache PDFBox 是一款功能丰富的工具，除了上述特性外，还有许多其他功能等待我们去探索和挖掘。如果您对 Apache PDFBox 有任何疑问或想了解更多功能，请随时在评论区向我提问，或者直接访问官方网站：https://pdfbox.apache.org/。

查看全文

http://www.lryc.cn/news/277055.html

【Python 常用脚本及命令系列 3.2 -- 检测到弹框跳出然后关掉它--脚本实现】

junit单元测试：使用@ParameterizedTest 和 @CsvSource注解简化单元测试方法

C# winform判断自身程序是否已运行，如果已运行则激活窗体

超维空间M1无人机使用说明书——21、基于opencv的人脸识别

Android Framework 常见解决方案（25-1）定制CPUSET解决方案-framework部分修改

PyTorch 参数化深度解析：自定义、管理和优化模型参数

自承载 Self-Host ASP.NET Web API 1 (C#)

Vue2-子传父和父传子的基本用法

使用numpy处理图片——镜像翻转和旋转

HTML5 article标签，＜time＞...＜/time＞标签和pubdate属性的运用

Amazing OpenAI API：把非 OpenAI 模型都按 OpenAI API 调用

RK3568平台开发系列讲解（驱动篇）pinctrl 函数操作集结构体讲解

vue购物车案例，v-model 之 lazy、number、trim，与后端交互

云原生Kubernetes: Kubeadm部署K8S 1.29版本单Master架构

C++协程操作

计算机配件杂谈-鼠标

用Python来制作一个微信聊天机器人

2024年第九届机器学习技术国际会议(ICMLT 2024) 即将召开

算法训练day9Leetcode232用栈实现队列225用队列实现栈

简介

导入

创建PDF文档

读取PDF文件

插入图片

读取图片

结尾

相关文章：