当前位置: 首页 > news >正文

PDF文件转换为HTML文件

推荐使用 pdf2htmlEX(因为确实做的比较全)

pdf2htmlEX 是一个开源工具,可以将PDF文件转换为HTML文件。你需要先安装pdf2htmlEX工具,并确保它在你的系统路径中可用。(花时间最多就是找包)

  • 安装 pdf2htmlEX

    可以从 pdf2htmlEX的GitHub页面 下载和安装。(下载特别慢)

  • 我自己创建一个库pdf2htmlEX 方便下载;(主要适用于linux环境,需要一点点编译)

  • Java window环境可以参考编译好的包(百度云盘方便大家下载)

链接:https://pan.baidu.com/s/1-w4nnuYu8OyaI61QR7AImg 提取码:ipe4

使用Java调用 pdf2htmlEX

你可以通过Java的 RuntimeProcessBuilder 来调用 pdf2htmlEX 工具。

public static void convertPdfToHtml(String pdfPath, String htmlPath) {List list = new ArrayList();list.add("cmd.exe");list.add("/c");list.add("C:\\wp\\project\\pdf2htmlEX\\pdf2htmlEX\\pdf2htmlEX.exe");list.add("\"" + pdfPath + "\"");list.add("\"" + htmlPath + "\"");ProcessBuilder processBuilder = new ProcessBuilder(list);try {Process process = processBuilder.start();BufferedReader reader = new BufferedReader(new InputStreamReader(process.getInputStream()));String line = "";while ((line = reader.readLine()) != null) {System.out.println(line);}process.waitFor();System.out.println("PDF conversion completed.");} catch (IOException | InterruptedException  e ) {System.out.println("应用程序不存在!");e.printStackTrace();}}
public static void main(String[] args) {String pdfFilePath = "test.pdf";String xmlFilePath = "wptest.html";EscapeUtil.convertPdfToHtml(pdfFilePath,xmlFilePath);}

执行之后的效果 PDF文件

生成html的文件

个人有一些开源项目 北斗位置服务平台(GPS跟踪平台)

http://www.lryc.cn/news/428329.html

相关文章:

  • 简易版PHP软文发稿开源系统
  • React.createContext 的 多种使用方法 详细实现方案代码
  • 计算机网络之IPv4深度解析
  • TinyGPT-V:微型视觉语言模型【VLM】
  • pytorch自动微分
  • TCP协议为什么是三次握手和四次挥手
  • 利用ChatGPT提升学术论文撰写效率:从文献搜集到综述撰写的全面指南
  • 智能、高效、安全,企业桌面软件管理系统,赋能企业数字化转型!提升工作效率不是梦!
  • 第N7周:调用Gensim库训练Word2Vec模型
  • 基于Crontab调度,实现Linux下的定时任务执行。
  • Centos系统中创建定时器完成定时任务
  • WLAN基础知识(1)
  • 网络安全实训第三天(文件上传、SQL注入漏洞)
  • Nginx 学习之 配置支持 IPV6 地址
  • springboot+伊犁地区游客小助手-小程序—计算机毕业设计源码无偿分享需要私信20888
  • 提升工作效率的五大神器
  • 想投资现货黄金?在TMGM开户需要多少钱?
  • “零拷贝”
  • [ABC367C] Enumerate Sequences 题解
  • C语言 | Leetcode C语言题解之第336题回文对
  • 【SQL】仅出现一次的最大数据
  • MySQL 数据类型详解及SQL语言分类-DDL篇
  • Leet Code 128-最长连续序列【Java】【哈希法】
  • 网络协议(概念版)
  • Pulsar官方文档学习笔记——消息机制
  • PyTorch--残差网络(ResNet)在CIFAR-10数据集进行图像分类
  • ETAS工具链自动化实战指南<一>
  • 疫情期间我面试了13家企业软件测试岗位,一些面试题整理
  • PINCE——Linux 原生游戏内存修改器,一款替代 Cheat Engine 的强大游戏修改器,Linux 游戏玩家必备神器!
  • 为IntelliJ IDEA安装插件