当前位置: 首页 > news >正文

关于pdfbox读取pdf

最近,想着将pdf的文件进行读取其内容,发现了一个比较好用的依赖pdfbox。目前使用这个依赖,进行实现一个简单实例,如果之后需要使用到更深的了解,会进行更新。这里提醒一下:jdk8尽量采用pdfbox3.x版本。

  1. 对于文件的读取
File file = new File("E:\\关于pdfbox学习.pdf");PDDocument document = Loader.loadPDF(file);//Instantiate PDFTextStripper classPDFTextStripper pdfStripper = new PDFTextStripper();//Retrieving text from PDF documentString text = pdfStripper.getText(document);System.out.println(text);

通过这个代码可以读取到相应的pdf文字:
在这里插入图片描述
上述是关于文字的读取,如果是获取pdf中的截图,那么进行如下操作:

  1. 获取pdf中的截图
    代码展示:
int pageNum = document.getNumberOfPages();
for (int i = 0; i < pageNum; i++) {PDPage page = document.getPage(i);PDResources resources = page.getResources();Iterable<COSName> xObjectNames = resources.getXObjectNames();if (xObjectNames != null){Iterator<COSName> names = xObjectNames.iterator();while (names.hasNext()){COSName next = names.next();if (resources.isImageXObject(next)){PDImageXObject xObject = (PDImageXObject) resources.getXObject(next);BufferedImage image = xObject.getImage();ImageIO.write(image, "png", new File("E:\\" + i + ".png"));}}}
}

结果如下:
在这里插入图片描述
所有代码展示:

package com.example.demo;import org.apache.pdfbox.Loader;
import org.apache.pdfbox.cos.COSName;
import org.apache.pdfbox.pdmodel.PDDocument;
import org.apache.pdfbox.pdmodel.PDPage;
import org.apache.pdfbox.pdmodel.PDResources;
import org.apache.pdfbox.pdmodel.graphics.PDXObject;
import org.apache.pdfbox.pdmodel.graphics.image.PDImageXObject;
import org.apache.pdfbox.text.PDFTextStripper;import javax.imageio.ImageIO;
import java.awt.image.BufferedImage;
import java.io.File;
import java.io.IOException;
import java.util.Iterator;
public class FoxApiMain {public static void main(String[] args) {  //try{//读取本地文件File file = new File("E:\\关于pdfbox学习.pdf");PDDocument document = Loader.loadPDF(file);//Instantiate PDFTextStripper classPDFTextStripper pdfStripper = new PDFTextStripper();//Retrieving text from PDF documentString text = pdfStripper.getText(document);System.out.println(text);int pageNum = document.getNumberOfPages();for (int i = 0; i < pageNum; i++) {PDPage page = document.getPage(i);PDResources resources = page.getResources();Iterable<COSName> xObjectNames = resources.getXObjectNames();if (xObjectNames != null){Iterator<COSName> names = xObjectNames.iterator();while (names.hasNext()){COSName next = names.next();if (resources.isImageXObject(next)){PDImageXObject xObject = (PDImageXObject) resources.getXObject(next);BufferedImage image = xObject.getImage();ImageIO.write(image, "png", new File("E:\\" + i + ".png"));}}}}document.close();} catch (IOException e) {throw new RuntimeException(e);}}
}
http://www.lryc.cn/news/356201.html

相关文章:

  • 汽车电子零部件(14):TMS热管理系统
  • 代码模板,Cookie和Session
  • Nginx配置及优化
  • HashMap在Go与Java的底层实现与区别
  • 搜维尔科技:使用Haption Virtuose 6D 力反馈通过机器人和虚拟现实完成远程操作项目
  • 【Python】WHEELTEC GPS G60主代码读取传感器数据代码(Windows系统)
  • 【Vue】Vue2与Vue3的区别
  • 马斯克的 xAI 帝国!60亿融资背后的超级布局?
  • 互联网医院开发:引领智慧医疗新时代
  • 民国漫画杂志《时代漫画》第18期.PDF
  • java.lang.NumberFormatException: For input string:
  • 从零开始搭建Springboot项目脚手架4:保存操作日志
  • 持续总结中!2024年面试必问 20 道 Rocket MQ面试题(一)
  • 生成式AI的GPU网络技术架构
  • 旅游卡在哪里拿货?千益畅行旅游卡源头
  • 代码随想录算法训练营第四十一天| 509. 斐波那契数 、70. 爬楼梯 、746. 使用最小花费爬楼梯
  • Ribbon负载均衡(自己总结的)
  • Leetcode 力扣92. 反转链表 II (抖音号:708231408)
  • OSI七层模型和TCP/IP四层模型的区别
  • 在虚拟机上安装MySQL和Hive
  • Vue 2 和 Vue 3 中同步和异步
  • ssm150旅游网站的设计与实现+jsp
  • 【加密与解密(第四版)】第十四章笔记
  • 鸿蒙系统和安卓系统通过termux搭建Linux系统—Centos
  • 数据结构的希尔排序(c语言版)
  • 使用Node.js搭建服务器
  • 网络编程——多进程的服务器
  • 代码随想录算法训练营第二十一天| 530. 二叉搜索树的最小绝对差、501. 二叉搜索树中的众数、236. 二叉树的最近公共祖先
  • 【面试】JDK和JVM是什么关系?
  • 旺店通与金蝶云星空 就应该这样集成打通