当前位置: 首页 > news >正文

PDFBOX和ASPOSE.PDF

一、aspose.pdf

  • 文档 https://docs.aspose.com/pdf/java/

1、按段落分段

/*** docx文本按段分段*/
public static void main(String[] args) {int i = 1;try {// 打开文件流FileInputStream file = new FileInputStream("I:\\范文.docx");// 创建 Word 文档对象XWPFDocument doc = new XWPFDocument(file);// 获取所有段落for (XWPFParagraph para : doc.getParagraphs()) {// 输出段落文本if (!para.getText().equals("")) {System.out.println(i++ + ":" + para.getText());}}// 关闭文件流file.close();} catch (IOException e) {e.printStackTrace();}
}

2、按句子分段

其他

word转pdf工具之aspose

<dependency><groupId>com.aspose</groupId><artifactId>aspose-words-crack</artifactId><version>21.1</version></dependency><dependency><groupId>com.aspose</groupId><artifactId>aspose-slides</artifactId><version>18.7</version></dependency><dependency><groupId>com.aspose</groupId><artifactId>aspose-cell</artifactId><version>18.9</version></dependency>

操作pdf其它api依赖

<dependency><groupId>com.itextpdf</groupId><artifactId>itext7-core</artifactId><version>7.1.15</version>
</dependency>
<dependency><groupId>org.apache.pdfbox</groupId><artifactId>pdfbox</artifactId><version>1.8.10</version>
</dependency>

二、PDFBOX

1、提取pdf指定页码的数据

public static void main(String[] args) throws IOException {String pdfPath = "C:\\Users\\Fushihao\\Desktop\\pdf\\test.pdf";int pageIndex = 4; // 指定要提取文本的页面号码// 加载 PDF 文件PDDocument document = PDDocument.load(new File(pdfPath));// 提取指定页面的文本PDFTextStripper stripper = new PDFTextStripper();stripper.setStartPage(pageIndex + 1);stripper.setEndPage(pageIndex + 1);String pageText = stripper.getText(document);// 输出文本到控制台System.out.println(pageText);// 关闭 PDF 文件document.close();
}
<dependency><groupId>org.apache.pdfbox</groupId><artifactId>pdfbox</artifactId><version>1.8.10</version>
</dependency>

2、获取 PDF 字数

public static int getPdfWords(File file) throws IOException {// 加载文件PDDocument document = PDDocument.load(file);PDFTextStripper stripper = new PDFTextStripper();// 获取字数String text = stripper.getText(document);// 关闭document.close();// 去除特殊符号返回字数return text.replaceAll("[\\r\\n\\t ]+", "").length();
}
http://www.lryc.cn/news/162587.html

相关文章:

  • 第51节:cesium 范围查询(含源码+视频)
  • YOLOv5改进算法之添加CA注意力机制模块
  • Jmeter系列-阶梯加压线程组Stepping Thread Group详解(6)
  • 图像的几何变换(缩放、平移、旋转)
  • 计算机网络第四章——网络层(上)
  • 【MyBatis】一、MyBatis概述与基本使用
  • Java事件机制简介 内含面试题
  • springMVC基础技术使用
  • UI设计师的发展前景是否超越了平面设计?
  • MyBatis的基本操作
  • 【Tomcat】在SpringBoot项目中,Tomcat是如何处理HTTP请求的
  • python开发基础篇1——后端操作K8s API方式
  • 【实践篇】Redis最强Java客户端(一)之Redisson入门介绍
  • 掌握AI助手的魔法工具:解密`Prompt`(提示)在AIGC时代的应用(下篇)
  • 十)Stable Diffussion使用教程:Lora
  • kafka学习-消费者
  • Alibaba(商品详情)API接口
  • OLED透明屏触控:引领未来科技革命的创新力量
  • Ubuntu下QT操作Mysql数据库
  • sqli --【1--10】
  • 《自然语言处理(NLP)的最新进展:Transformers与GPT-4的浅析》
  • Wireshark 用命令行分析数据包
  • LVS DR模式负载均衡群集部署
  • 探讨前后端分离开发的优势、实践以及如何实现更好的用户体验?
  • 微博一面:JVM预热,你的方案是啥?
  • open与fopen的区别
  • Unity记录一些glsl和hlsl的着色器Shader逆向代码
  • 基于Sentinel的微服务保护
  • Collectors类作用:
  • LASSO回归