当前位置: 首页 > news >正文

java:pdfbox 3.0 去除扫描版PDF中文本水印

官网下载 https://pdfbox.apache.org/download.html
下载 pdfbox-app-3.0.3.jar

cd D:\pdfbox
运行 java -jar pdfbox-app-3.0.3.jar

java -jar pdfbox-app-3.0.3.jar
Usage: pdfbox [COMMAND] [OPTIONS]
Commands:debug          Analyzes and inspects the internal structure of a PDF documentdecrypt        Decrypts a PDF documentencrypt        Encrypts a PDF documentdecode         Writes a PDF document with all streams decodedexport:images  Extracts the images from a PDF documentexport:xmp     Extracts the xmp stream from a PDF documentexport:text    Extracts the text from a PDF documentexport:fdf     Exports AcroForm form data to FDFexport:xfdf    Exports AcroForm form data to XFDFimport:fdf     Imports AcroForm form data from FDFimport:xfdf    Imports AcroForm form data from XFDFoverlay        Adds an overlay to a PDF documentprint          Prints a PDF documentrender         Converts a PDF document to image(s)merge          Merges multiple PDF d*.ocuments into onesplit          Splits a PDF document into number of new documentsfromimage      Creates a PDF document from imagesfromtext       Creates a PDF document from textversion        Gets the version of PDFBoxhelp           Display help information about the specified command.
See 'pdfbox help <command>' to read about a specific subcommand

运行 java -jar pdfbox-app-3.0.3.jar debug

# 导出扫描版PDF文件中每页的图片文件

java -jar pdfbox-app-3.0.3.jar export:images -prefix=test -i your_book.pdf
导出
Writing image: test-1.jpg
Writing image: test-2.jpg
Writing image: test-3.png
……

# from 多个 image 合并生成 pdf

java -jar pdfbox-app-3.0.3.jar fromimage -o=book1.pdf -i=test-1.jpg -i=test-2.jpg -i=test-3.png -i=test-4.jpg
生成 book1.pdf  视觉效果太差,而且命令行长度限制了图片文件数(一般扫描书都有几百页)。

还是要自己编程搞定。

http://www.lryc.cn/news/456126.html

相关文章:

  • python知识点100篇系列(17)-替换requests的python库httpx
  • python 实现graph list图列算法
  • LFU算法 初始频率 动态频率
  • Spring Boot 进阶-详解SpringBoot的复杂数据校验规则
  • wsl环境下安装Ubuntu,并下载MySQL5.7
  • 倪师学习笔记-天纪-01
  • 深入理解缓存穿透、缓存击穿和缓存雪崩
  • 【玩转动态规划专题】70. 爬楼梯【简单】
  • 前端开发设计模式——组合模式
  • 初探OceanBase 4.x单机环境下如何进行主备架构搭建
  • python 实现Edmonds-Karp算法
  • 【牛客刷题实战】BC120 争夺前五名
  • WMS 智慧仓储管理系统的可视化管理_SunWMS
  • 动态代理代码示例
  • SpringBoot+Activiti7工作流使用进阶实例-高亮显示BPMN流程图( SpringBoot+Activiti+mybatis+shiro实现)
  • C#使用Lazy<T>提高性能
  • 创建读取比特币1P类型地址
  • 从零开始Hadoop集群环境搭建
  • Copley耐环境伺服驱动器 极端环境下高精度控制解决方案
  • 前端的全栈混合之路Meteor篇:分布式数据协议DDP深度剖析
  • 基于Zynq SDIO WiFi移植一(支持2.4/5G)
  • 数据结构与算法篇(刷题篇 - 链表)
  • TinyAgent: 从零开始构建最小化Agent系统
  • Android Studio New里面没有New Flutter Project
  • linux信号 | 学习信号四步走 | 透析信号是如何被处理的?
  • mysql语句执行过程
  • 最新版本SkyWalking【10.1.0】部署
  • WSL2 中配置桥接模式、虚拟交换机及固定 IP
  • Unite Shanghai 2024 团结引擎专场 | 团结引擎 OpenHarmony 工程剖析
  • 计算机毕业设计 基于Hadoop的智慧校园数据共享平台的设计与实现 Python毕业设计 Python毕业设计选题 Spark 大数据【附源码+安装调试】