当前位置: 首页 > news >正文

PDF转化为图片

Java 类 PDF2Image 在包 com.oncloudsoft.zbznhc.common.util.pdf 中是用来将 PDF 文件转换为图像的。它使用了 Apache PDFBox 库来处理 PDF 文档并生成图像。下面是类中每个部分的详细解释:

类和方法说明

  • PDF2Image:

    • 使用了 Lombok 库的 @Slf4j 注解,这会为类自动生成一个日志记录器(logger),可以用来记录信息、错误等。
    • 提供了两个重载的 pdf2Image 方法,用于处理 PDF 到图像的转换。
  • 方法 pdf2Image(String file, String targetFolder):

    • 接受 PDF 文件的路径和目标文件夹路径作为参数。
    • 打印日志信息。
    • 调用另一个重载的 pdf2Image 方法来执行转换。
  • 方法 pdf2Image(File file, String targetFolder):

    • 接受 File 对象和目标文件夹路径作为参数。
    • 使用 PDDocument.load 加载 PDF 文件,并设置内存使用设置为仅使用临时文件。
    • 获取 PDF 文档的总页数。
    • 使用 PDFRenderer 类来渲染 PDF 页面为图像。
    • 逐页渲染 PDF,并将渲染后的图像保存为 JPG 格式的文件。
    • 图像的文件名基于原始 PDF 文件名,并附加页码和 .jpg 后缀。
    • 处理完所有页面后,返回包含生成的图像文件路径的列表。
  • 异常处理:

    • 捕获并记录 InvalidPasswordExceptionIOException 异常。
  • 主方法 main(String[] args):

    • 用于测试 pdf2Image 方法。
    • 记录并打印转换过程所需的时间。

功能

该类主要用于将 PDF 文件转换为一系列的 JPG 图像,每页一个图像。这在需要将 PDF 文档的内容以图像形式展示或处理时非常有用,如在网页上显示 PDF 页面的预览图。

使用 Apache PDFBox

Apache PDFBox 是一个开源的 Java 工具,用于处理 PDF 文档。这个类利用 PDFBox 提供的功能来渲染和保存 PDF 页面作为图像。

注意事项

  • 需要确保 Apache PDFBox 库已被添加到项目依赖中。
  • 方法中使用了硬编码的 DPI(每英寸点数)和 JPG 图像质量设置,这可能需要根据实际需求进行调整。
  • 生成的 JPG 文件将保存在指定的目标文件夹中。
package com.oncloudsoft.zbznhc.common.util.pdf;import lombok.extern.slf4j.Slf4j;
import org.apache.pdfbox.io.MemoryUsageSetting;
import org.apache.pdfbox.pdmodel.PDDocument;
import org.apache.pdfbox.pdmodel.encryption.InvalidPasswordException;
import org.apache.pdfbox.rendering.PDFRenderer;
import org.apache.pdfbox.tools.imageio.ImageIOUtil;import java.awt.image.BufferedImage;
import java.io.File;
import java.io.IOException;
import java.util.ArrayList;
import java.util.List;@Slf4j
public class PDF2Image {private static final int PAGE_SIZE = 50;/*** 提取* @param file			PDF文件* @param targetFolder 	图片存放目录* @return */public static ArrayList<String> pdf2Image(String file, String targetFolder) {log.info("PDF2Image中,file为:"+file);return pdf2Image(new File(file), targetFolder);}/*** 由于apache-pdfbox版本升级到2.0.18, 部分api不兼容,覆盖旧版本pdf2Image方法* @param file pdf文件* @param targetFolder  图片保存文件夹路径*/public static ArrayList<String> pdf2Image(File file, String targetFolder) {ArrayList<String> list = new ArrayList<>();String prex = file.getName().split("\\.")[0];try (PDDocument document = PDDocument.load(file, MemoryUsageSetting.setupTempFileOnly());) {int pages = document.getNumberOfPages();PDFRenderer renderer = new PDFRenderer(document);int k = 0;int count = 1;List<BufferedImage> imageList = new ArrayList<>(PAGE_SIZE);for (;;) {int startPage = k * PAGE_SIZE;int endPage = startPage + PAGE_SIZE > pages ? pages : startPage + PAGE_SIZE;k++;imageList.clear();for (int i = startPage; i < endPage; i++) {BufferedImage image = renderer.renderImageWithDPI(i, 150);//					imageList.add(image);String imgPath = targetFolder + File.separator + prex + "_" + (count++) + ".jpg";ImageIOUtil.writeImage(image, imgPath, 200);list.add(imgPath);}if (endPage == pages) break;}return list;} catch (InvalidPasswordException e) {log.error("", e);} catch (IOException e) {log.error("", e);}return list;}public static void main(String[] args) throws IOException {long s = System.currentTimeMillis();String file = "/home/sunyuhua/test/1+2.pdf";String folder = "/home/sunyuhua/test/jpg";pdf2Image(file, folder);System.out.println("耗时: " + (System.currentTimeMillis() - s));}
}
http://www.lryc.cn/news/234138.html

相关文章:

  • 【Java】智慧工地管理系统源码(SaaS模式)
  • torch.nn.functional.log_softmax 函数解析
  • jQuery、vue、小程序、uni-app中的本地存储数据和接受数据是什么?
  • 黑马React18: 基础Part 1
  • windows Oracle Database 19c 卸载教程
  • 动态规划解决leetcode上的两道回文问题(针对思路)
  • 使用人工智能自动测试 Flutter 应用程序
  • 四、程序员指南:数据平面开发套件
  • Go 之 captcha 生成图像验证码
  • 【Java从入门到大牛】多线程
  • UE5 C++报错:is not currently enabled for Live Coding
  • mysql服务器数据同步
  • Docker Golang 开发环境搭建指南
  • MFC保存窗口客户区为图片
  • JAVA安全之Shrio550-721漏洞原理及复现
  • 有Mac或无Mac电脑通用的获取安卓公钥的方案
  • 电池故障估计:Realistic fault detection of li-ion battery via dynamical deep learning
  • 微服务和Spring Cloud Alibaba介绍
  • 【js】 lodash命名转换和封装
  • RK3568驱动指南|第七篇 设备树-第67章 of操作函数实验:获取属性
  • vue3安装vue-router
  • 〖大前端 - 基础入门三大核心之JS篇㊱〗- JavaScript 的DOM节点操作
  • 【计算机基础】优雅的PPT就应该这样设计
  • Vatee万腾的科技征程:Vatee数字化创新的前沿探讨
  • 【PB续命05】WinHttp.WinHttpRequest的介绍与使用
  • 【Linux】进程间是这样通信的--管道篇
  • Python基础入门例程60-NP60 跳过列表的某个元素(循环语句)
  • 三十二、W5100S/W5500+RP2040树莓派Pico<UPnP示例>
  • 2023.11.18 Hadoop之 YARN
  • ceph 常用命令