当前位置: 首页 > news >正文

pdf2htmlEX:pdf 转 html,医学指南精细化处理第一步

pdf2htmlEX:pdf 转 html,医学指南精细化处理第一步

      • 单文件转换
      • 多文件转换

 


代码:https://github.com/coolwanglu/pdf2htmlEX

拉取pdf2htmlEX 的 Docker:

docker pull bwits/pdf2htmlex
# 拉取 bwits/pdf2htmlex

不用进入容器,直接创建 3 个 文件夹

mkdir pdf2html
mkdir pdf2html/pdf_files    # 所有需要转换的pdf
mkdir pdf2html/html_files   # 用于存放转换好的 html 文件

单文件转换

  • 在 pdf_files 文件夹下面有一个 test_1.pdf,运行命令:
docker run -ti --rm -v ~/pdf2html:/pdf2html bwits/pdf2htmlex pdf2htmlEX --dest-dir /pdf2html/html_files /pdf2html/pdf_files/test_1.pdf

 

多文件转换

Docker命令本身并不支持在单个命令中处理多文件或使用通配符执行迭代。因此,您需要使用一些shell脚本逻辑来达到这个目的。

以下是一个在Linux环境下使用bash脚本处理目录中所有PDF文件的方法。

这段脚本将迭代 pdf_files 目录中的所有PDF文件,并对每个文件运行 bwits/pdf2htmlex 容器:

#!/bin/bash# 设定本地PDF文件的目录
PDF_DIR="/home/bobuser/pdf2html/pdf_files"# 设定HTML输出目录
HTML_DIR="/home/bobuser/pdf2html/html_files"# 遍历pdf_files目录中的所有PDF文件
for pdf in "$PDF_DIR"/*.pdf; doecho "转换文件:$(basename "$pdf")"# 运行Docker命令来转换当前PDF文件docker run -ti --rm -v /home/bobuser/pdf2html:/pdf2html bwits/pdf2htmlex pdf2htmlEX --dest-dir /pdf2html/html_files "/pdf2html/pdf_files/$(basename "$pdf")"
doneecho "所有PDF文件转换完成。"

将上述脚本保存到一个文件中,比如命名为 convert_pdfs.sh,然后执行以下步骤:

  1. 给予脚本执行权限:
    chmod +x convert_pdfs.sh
    
  2. 执行脚本:
    ./convert_pdfs.sh
    

这段脚本将对 pdf_files 目录中的每个PDF文件执行 pdf2htmlEX 命令,将结果输出到 html_files 目录。

这种方法假设所有PDF文件都存储在 /home/bobuser/pdf2html/pdf_files 目录中,并且输出的HTML文件将存储在 /home/bobuser/pdf2html/html_files 目录中。

 


转换后:

在这里插入图片描述

http://www.lryc.cn/news/343938.html

相关文章:

  • 【webrtc】MessageHandler 6: 基于线程的消息处理:StunRequest实现包发送和超时重传
  • 《Python编程从入门到实践》day22
  • 介绍 ffmpeg.dll 文件以及ffmpeg.dll丢失怎么办的五种修复方法
  • AI换脸原理(6)——人脸分割介绍
  • 【C++并发编程】(二)线程的创建、分离和连接
  • 利用生成式AI重新构想ITSM的未来
  • 完美解决AttributeError: module ‘backend_interagg‘ has no attribute ‘FigureCanvas‘
  • CMakeLists.txt语法规则:条件判断中表达式说明一
  • 《QT实用小工具·五十三》会跑走的按钮
  • Servlet的几种用法?
  • Golang | Leetcode Golang题解之第69题x的平方根
  • AR人脸美妆SDK解决方案,让妆容更加贴合个人风格
  • Python-100-Days: Day09 Object-oriented programming(OOP) Upgrade
  • 虹科Pico汽车示波器 | 免拆诊断案例 | 2010款凯迪拉克SRX车发动机无法起动
  • ECC 号码总结
  • 《大疆二次开发》EMQX和MQTT部署
  • 【网络】滑动窗口和拥塞窗口
  • 数据库知识初步汇总
  • Moby简介:openEuler 中的开源docker引擎
  • 分布式光纤测温DTS的测温范围是多少?
  • Java实现裁剪PDF
  • ZooKeeper以及DolphinScheduler的用法
  • gitlab集群高可用架构拆分部署
  • STC8增强型单片机开发day01
  • 记录: Python解析yml文件,顺序解析,带所有文件等号
  • Npm Install Docusaurus Demo【npm 安装 docusaurus 实践 】
  • 【工具推荐定制开发】一款轻量的批量web请求命令行工具支持全平台:hey,基本安装、配置、使用
  • Linux进程——进程的创建(fork的原理)
  • ICode国际青少年编程竞赛- Python-1级训练场-路线规划
  • uniapp微信小程序1rpx border在某些手机机型上边框显示不出来解决方案