当前位置: 首页 > news >正文

Word、PDF转换为图片Java

Word、PDF转换为图片Java

需求要在小程序端展示文档内容,所以将文档每页转换为图片后显示

参考和其他等方案:
https://blog.csdn.net/strggle_bin/article/details/140599514

https://www.modb.pro/db/566986

https://blog.csdn.net/spring_is_coming/article/details/136969669

Word转换为图片

<!-- word转图工具 -->
<dependency><groupId>com.deepoove</groupId><artifactId>poi-tl</artifactId><version>1.8.0</version>
</dependency>
<dependency><groupId>com.luhuiguo</groupId><artifactId>aspose-words</artifactId><version>23.1</version>
</dependency>
import com.aspose.words.Document;
import com.aspose.words.SaveFormat;
import lombok.extern.slf4j.Slf4j;import java.io.File;
import java.nio.file.Files;
import java.util.ArrayList;
import java.util.List;@Slf4j
public class WordToImageUtil {public static void main(String[] args) {wordToImage("C:\\Users\\Administrator\\Documents\\录入脚本\\324\\", "xxxx.doc");}public static List<String> wordToImage(String filePath, String fileName) {log.info("开始word转换为图片");List<String> resultList = new ArrayList<String>();// 获取文件路径分隔符String separator = File.separator;try {// 填充数据完毕的test.docx,在转换成图片File file1 = new File(filePath + separator + fileName); // 使用系统的路径分隔符// 打开生成的 Word 文件Document doc = new Document(Files.newInputStream(file1.toPath()));// 逐页将 Word 文件保存为图片(PNG格式)for (int i = 0; i < doc.getPageCount(); i++) {Document extractedPage = doc.extractPages(i, 1);// 拼接上文件名String path = filePath + separator + "tmpImg" + separator + removeFileExtension(fileName) + separator +"img" + System.currentTimeMillis() + "_" + i + ".png"; // 使用系统的路径分隔符// 创建目录(如果不存在的话)File tmpDir = new File(filePath + separator + "tmpImg" + separator + removeFileExtension(fileName));if (!tmpDir.exists()) {tmpDir.mkdirs(); // 创建目录}// 将 Word 文件保存为图片PNG格式extractedPage.save(path, SaveFormat.PNG);resultList.add(path);}} catch (Exception e) {e.printStackTrace();return new ArrayList<>();}log.info("结束word转换为图片");return resultList;}/*** 去掉后缀名* @param fileName* @return*/public static String removeFileExtension(String fileName) {int dotIndex = fileName.lastIndexOf(".");if (dotIndex == -1) {return fileName; // 如果没有找到点,则返回原始文件名}return fileName.substring(0, dotIndex); // 返回去掉后缀名的文件名}
}

PDF转换为图片

<!--PDF转换为图片-->
<dependency><groupId>org.apache.pdfbox</groupId><artifactId>fontbox</artifactId><version>2.0.9</version>
</dependency>
<!-- https://mvnrepository.com/artifact/org.apache.pdfbox/pdfbox -->
<dependency><groupId>org.apache.pdfbox</groupId><artifactId>pdfbox</artifactId><version>2.0.9</version>
</dependency>
<!-- https://mvnrepository.com/artifact/commons-logging/commons-logging -->
<dependency><groupId>commons-logging</groupId><artifactId>commons-logging</artifactId><version>1.2</version>
</dependency>
import org.apache.pdfbox.pdmodel.PDDocument;
import org.apache.pdfbox.rendering.PDFRenderer;
import javax.imageio.ImageIO;
import java.awt.image.BufferedImage;
import java.io.File;
import java.io.IOException;
public class PdfToImage {/*** 使用pdfbox将整个pdf转换成图片** @param fileAddress 文件地址 如:C:\\Users\\user\\Desktop\\test* @param filename    PDF文件名不带后缀名* @param type        图片类型 png 和jpg*/public static void pdf2png(String fileAddress, String filename, String type) {long startTime = System.currentTimeMillis();// 将文件地址和文件名拼接成路径 注意:线上环境不能使用\\拼接File file = new File(fileAddress + "\\" + filename + ".pdf");try {// 写入文件PDDocument doc = PDDocument.load(file);PDFRenderer renderer = new PDFRenderer(doc);int pageCount = doc.getNumberOfPages();for (int i = 0; i < pageCount; i++) {// dpi为144,越高越清晰,转换越慢BufferedImage image = renderer.renderImageWithDPI(i, 144); // Windows native DPI// 将图片写出到该路径下ImageIO.write(image, type, new File(fileAddress + "\\" + filename + "_" + (i + 1) + "." + type));}long endTime = System.currentTimeMillis();System.out.println("共耗时:" + ((endTime - startTime) / 1000.0) + "秒");  //转化用时} catch (IOException e) {e.printStackTrace();}}public static void main(String[] args) {pdf2png("C:\\Users\\Administrator\\Documents\\xxx\\pdf", "文件名", "png");}
}

乱码问题

如果在linux运行遇到中文乱码,可尝试安装字体然后重启程序运行

参考:https://blog.csdn.net/lljddddd/article/details/137958297

1、从本地找到字体:C:\Windows\Fonts

2、复制到Linux,我这里用的centos,复制字体到 /usr/share/fonts

3、安装fontconfig工具 yum -y install fontconfig

4、刷新字体缓存 fc-cache

5、查看字体列表是否完成安装 fc-list

http://www.lryc.cn/news/465617.html

相关文章:

  • iOS IPA上传到App Store Connect的三种方案详解
  • Java中的Arrays类
  • GUI编程
  • (multi)map和set--C++
  • jmeter响应断言放进csv文件遇到的问题
  • 复旦大学全球供应链研究中心揭牌,合合信息共话大数据赋能
  • 达那福发布新品音致系列:以顶尖降噪技术,开启清晰聆听新篇章
  • 当物理学奖遇上机器学习:创新融合的里程碑
  • 模拟电路2
  • 大数据面试题整理——MapReduce
  • 【景观生态学实验】实验一 ArcGIS地理数据处理及制图基础
  • 今年双十一最值得入手的好物有哪些?双十一值得选购的好物盘点!
  • 【OpenCV】人脸识别方法
  • xxl-job定时任务
  • C#从零开始学习(如何构建应用)(1)
  • OpenCV高级图形用户界面(7)获取指定窗口的属性值函数getWindowProperty()的使用
  • Java实现文件上传功能
  • Leetcode|24. 两两交换链表中的节点 ● 19.删除链表的倒数第N个节点 ● 面试题 02.07. 链表相交 ● 142.环形链表II
  • OpenCV学习笔记5——图像的数值计算
  • P3137 [USACO16FEB] Circular Barn S
  • yocto编辑软件包-devtool的使用方法
  • 51单片机快速入门之 串行通信 2024/10/21
  • webpack 老项目升级记录:node-sass 规定的 node v8 提升至支持 node v22
  • 【wpf】08 xml文件的存取操作
  • 即时通讯代码优化
  • jmeter学习(8)界面的使用
  • 记录一次hiveserver2卡死(假死)问题
  • 【ios】在 SwiftUI 中实现可随时调用的加载框
  • 字符、解释型语言、编程语言的互操作、输出
  • 基于Python的自然语言处理系列(39):Huggingface中的解码策略