当前位置: 首页 > news >正文

【Python】Python 批量转换PDF到Excel

PDF是面向展示和打印使用的,并未考虑编辑使用,所以缺少了很多编辑属性且非常难修改PDF里面的数据。当您需要分析或修改PDF文档数据时,可以将PDF保存为Excel工作簿,实现轻松编辑数据的需求。PDF转Excel,技术关键就是提取原文档内的表格数据,保证转换前后数据的一致性,方便复制粘贴且可轻松编辑。本文将介绍如何使用  Spire.PDF for Python 在 Python 中实现 PDF 转 Excel。


安装Spire.PDF for Python
本教程需要用到 Spire.PDF for Python。可通过以下 pip 命令将它们轻松安装到 VS Code 中。

pip install Spire.PDF
1.
转换PDF 到Excel
Spire.PDF for Python 提供的 PdfDocument.SaveToFile() 方法能将 PDF 文件保存为 Excel 格式。以下是如何使用 Spire.PDF for Python 将 PDF 文档转换为 Excel XLSX 格式并指定转换选项的具体步骤:

创建一个 PdfDocument 对象
使用 PdfDocument.LoadFromFile() 方法加载 PDF 文档。
创建一个 XlsxLineLayoutOptions 对象,并将相应的参数传递给 XlsxLineLayoutOptions 类的构造函数,以指定转换选项。
使用 PdfDocument.ConvertOptions.SetPdfToXlsxOptions() 方法应用转换选项。
使用 PdfDocument.SaveToFile() 方法将 PDF 文档保存为 Excel XLSX 格式。
from spire.pdf.common import *
from spire.pdf import *

# 创建PdfDocument对象
pdf = PdfDocument()

# 加载PDF文档
pdf.LoadFromFile("Sample.pdf")

# 创建 XlsxLineLayoutOptions 对象来指定转换选项
# 参数: convertToMultipleSheet, rotatedText, splitCell, wrapText, overlapText
convertOptions = XlsxLineLayoutOptions(True, True, False, True, False)

# 设置转换选项
pdf.ConvertOptions.SetPdfToXlsxOptions(convertOptions)

# 将PDF文档保存为Excel XLSX格式
pdf.SaveToFile("PdftoExcel.xlsx", FileFormat.XLSX)
pdf.Close()

将 PDF保存为Excel后,转换后可以轻松提取文档里面的数据。效果图如下:

总结:
除了将 PDF保存为Excel, Spire.PDF for python还支持将PDF 存为OFD, PDF文档转换为Word, 将PDF另存为图片,如 PDF to PNG, JPG,BMP等。
 

http://www.lryc.cn/news/266549.html

相关文章:

  • Python并行计算和分布式任务全面指南
  • 微信小程序promise封装
  • hash长度扩展攻击
  • 设计模式--命令模式
  • 单例模式的七种写法
  • ElasticSearch入门介绍和实战
  • 【FPGA】分享一些FPGA视频图像处理相关的书籍
  • AUTOSAR从入门到精通-车载以太网(四)
  • MySQL报错:1054 - Unknown column ‘xx‘ in ‘field list的解决方法
  • 【Android 13】使用Android Studio调试系统应用之Settings移植(四):40+个依赖子模块之ActionBarShadow
  • nosql-redis整合测试
  • 智能化中的控制与自动化中的控制不同
  • java练习题之多态练习
  • [原创][R语言]股票分析实战[4]:周级别涨幅趋势的相关性
  • esp32使用lvgl,给图片取模显示图片
  • R语言使用scitb包10分钟快速绘制论文基线表
  • 类和对象
  • Py之tensorflow-addons:tensorflow-addons的简介、安装、使用方法之详细攻略
  • STM32G4x FLASH 读写配置结构体(LL库下使用)
  • 【AI提示词人物篇】创新艺术未来,让科技改变想象空间
  • 登录shell与非登录shell、交互式与非交互式shell的知识点详细总结
  • 【教学类-42-02】20231224 X-Y 之间加法题判断题2.0(按2:8比例抽取正确题和错误题)
  • 轻量Http客户端工具VSCode和IDEA
  • 机器学习或深度学习的数据读取工作(大数据处理)
  • Rust 生命周期
  • 【论文解读】CNN-Based Fast HEVC Quantization Parameter Mode Decision
  • 在Linux上安装CLion
  • R语言贝叶斯网络模型、INLA下的贝叶斯回归、R语言现代贝叶斯统计学方法、R语言混合效应(多水平/层次/嵌套)模型
  • 多维时序 | Matlab实现PSO-GCNN粒子群优化分组卷积神经网络多变量时间序列预测
  • Oracle 学习(1)