当前位置：首页 > news >正文

PDFBox + Tess4J 从PDF中提取图片OCR识别文字

news 2025/7/2 5:21:22

说明

记录一个完整的 Java 示例，展示如何使用 PDFBox + Tess4J 从 PDF 中提取图片，并通过 OCR 识别图片中的文字，当前仅仅支持基础功能。

功能说明

读取一个 PDF 文件
将每一页渲染成图片（高分辨率）
使用 Tess4J 对每一页图片进行 OCR
打印识别结果

maven依赖

<!-- PDFBox -->
<dependency><groupId>org.apache.pdfbox</groupId><artifactId>pdfbox</artifactId><version>2.0.30</version>
</dependency><!-- Tess4J -->
<dependency><groupId>net.sourceforge.tess4j</groupId><artifactId>tess4j</artifactId><version>5.11.0</version>
</dependency>

示例代码

import net.sourceforge.tess4j.Tesseract;
import net.sourceforge.tess4j.TesseractException;
import org.apache.pdfbox.pdmodel.PDDocument;
import org.apache.pdfbox.rendering.PDFRenderer;import javax.imageio.ImageIO;
import java.awt.image.BufferedImage;
import java.io.File;
import java.io.IOException;public class PdfOcrExample {public static void main(String[] args) {String pdfPath = "your.pdf"; // 你的PDF路径String tessDataPath = "tessdata"; // OCR语言包路径try {// 加载 PDF 文档PDDocument document = PDDocument.load(new File(pdfPath));PDFRenderer pdfRenderer = new PDFRenderer(document);int pageCount = document.getNumberOfPages();// 初始化 Tesseract OCRTesseract tesseract = new Tesseract();tesseract.setDatapath(tessDataPath); // tessdata 文件夹路径tesseract.setLanguage("chi_sim");    // 语言设置（chi_sim 为简体中文）for (int page = 0; page < pageCount; ++page) {// 渲染每一页为高分辨率图像（300 DPI）BufferedImage image = pdfRenderer.renderImageWithDPI(page, 300);// 可选：保存为中间图片文件File imageFile = new File("page_" + page + ".png");ImageIO.write(image, "png", imageFile);// OCR 识别String text = tesseract.doOCR(imageFile);// 打印结果System.out.println("===== 第 " + (page + 1) + " 页识别结果 =====");System.out.println(text);}document.close();} catch (IOException | TesseractException e) {e.printStackTrace();}}
}