当前位置: 首页 > news >正文

PDF转文本以及转图片:itextpdf

文章目录

  • 🐒个人主页:信计2102罗铠威
  • 🏅JavaEE系列专栏
    • 📖前言:
    • 🎀 1. itextpdf
        • 1.1导入itextpdf的maven依赖
        • 1.2 提取文本代码
        • 1.3 pdf转换成图片代码(本地图片地址还是线上PDF的URL地址均支持)

🐒个人主页:信计2102罗铠威

🏅JavaEE系列专栏

📖前言:

PDF转文本的插件常用的有:pdfbox ,itextpdf 和 spire.pdf 这几个,

🎀 1. itextpdf

1.1导入itextpdf的maven依赖
        <!--2.itexpdf依赖--><dependency><groupId>com.itextpdf</groupId><artifactId>itextpdf</artifactId><version>5.5.13.3</version></dependency>
1.2 提取文本代码
import com.itextpdf.text.pdf.PdfReader;
import com.itextpdf.text.pdf.parser.PdfTextExtractor;
import java.io.*;public class Main_itextPdf {public static void main(String[] args) throws Exception {System.out.println("------------------------pdf提取文本开始------------------------------");// 2. 加载PDF文件File file = new File("C:/Users/Administrator/Desktop/罗铠威个人简历.pdf");PdfReader reader = new PdfReader(file.getAbsolutePath());// 3. 解析PDF文件,获取页面数据int page = 1; // 获取第一页String text = PdfTextExtractor.getTextFromPage(reader, page);System.out.println(text);// 4. 关闭PdfReaderreader.close();System.out.println("------------------------pdf提取文本结束------------------------------");}
}
1.3 pdf转换成图片代码(本地图片地址还是线上PDF的URL地址均支持)
import org.apache.pdfbox.pdmodel.PDDocument;
import org.apache.pdfbox.rendering.PDFRenderer;import javax.imageio.ImageIO;
import java.awt.image.BufferedImage;
import java.io.*;
import java.net.URL;
import java.net.URLConnection;
import java.util.Scanner;public class Main_itextPdf {public static void main(String[] args) throws Exception {System.out.println("------------------------pdf转图片开始------------------------------");
//        InputStream inputStream = readPdfFromUrl("http://minio.xxxx/xxxx.pdf");//线上的pdf文件InputStream inputStream = new FileInputStream("C:/Users/Administrator/Desktop/罗铠威个人简历.pdf") ;byte[] bytes = streamToByte(inputStream);InputStream newStream = new ByteArrayInputStream(bytes);//将pdf流转换成png图片流InputStream imgStream = pdfToImg(newStream);//存储图片imgStream到桌面ImageIO.write(ImageIO.read(imgStream), "png", new File("C:/Users/Administrator/Desktop/1.png"));System.out.println("------------------------pdf转图片结束------------------------------");}//支持线上pdf文件地址urlpublic static InputStream readPdfFromUrl(String pdfUrl) throws IOException {URL url = new URL(pdfUrl);URLConnection connection = url.openConnection();BufferedInputStream bufferedInputStream = new BufferedInputStream(connection.getInputStream());return bufferedInputStream;}public static ByteArrayInputStream pdfToImg(InputStream pdfStream) throws Exception {// 将 InputStream 转换为 PDDocumentPDDocument document = PDDocument.load(pdfStream);// 创建 PDFRenderer 对象PDFRenderer pdfRenderer = new PDFRenderer(document);// 选择第一页面来生成图片// 可以根据需要改成遍历所有页面并保存BufferedImage bufferedImage = pdfRenderer.renderImageWithDPI(0, 300); // 0 表示第一页,300 DPI 提供高质量图像// 将 BufferedImage 转换为 InputStreamByteArrayOutputStream byteArrayOutputStream = new ByteArrayOutputStream();ImageIO.write(bufferedImage, "PNG", byteArrayOutputStream);document.close();// 返回一个新的 InputStreamreturn new ByteArrayInputStream(byteArrayOutputStream.toByteArray());}public static byte[] streamToByte(InputStream inputStream) throws Exception {ByteArrayOutputStream buffer = new ByteArrayOutputStream();int nRead;byte[] data = new byte[1024];while ((nRead = inputStream.read(data, 0, data.length)) != -1) {buffer.write(data, 0, nRead);}buffer.flush();return buffer.toByteArray();}}
http://www.lryc.cn/news/516964.html

相关文章:

  • AnaConda下载PyTorch慢的解决办法
  • 移动端自动化测试Appium-java
  • IO: 作业:Day1
  • ue5 替换角色的骨骼网格体和动画蓝图
  • el-cascader 树状选择-点击父级禁用子级
  • AWS re:Invent 的创新技术
  • PHP7和PHP8的最佳实践
  • Debian、Ubuntu 22.04和ubuntu 24.04国内镜像源(包括 docker 源)
  • 点亮一个esp32 的led
  • C++ shared_ptr进一步认知,为什么引用计数>2退出作用域都可以调用析构
  • JavaScript代码片段二
  • 【计算机视觉】单目深度估计模型-Depth Anything-V2
  • Servlet 和 Spring MVC:区别与联系
  • 【期末复习】三、内存管理
  • Microsoft Azure Cosmos DB:全球分布式、多模型数据库服务
  • 【Docker】安装registry本地镜像库,开启Https功能
  • JUC--线程池
  • 后端Java开发:第十一天
  • 基于 GEE 的长时间序列 Landsat 5 影像下载
  • Unity-Mirror网络框架从入门到精通之Attributes属性介绍
  • 软考证书邮寄步骤
  • 计算机网络 (29)网络地址转换NAT
  • nlp培训重点-2
  • 设计模式(1)——面向对象和面向过程,封装、继承和多态
  • 培训机构Day24
  • 1/7 C++
  • C语言初阶习题【23】输出数组的前5项之和
  • Android audio(1)-音频模块概述
  • 园林与消防工程:选择正确工程项目管理软件的重要性
  • 分布式环境下定时任务扫描时间段模板创建可预订时间段