当前位置: 首页 > news >正文

知识图谱06——将pdf中的表格(文字形式)保存至csv中

使用ubuntu22.04,anaconda
由于装环境装了一阵子,不确定装了哪些包了

可能的环境安装

conda install -c conda-forge pymupdf
conda install -c conda-forge camelot-py
conda install pandas
#或者
pip install PyMuPDF
pip install camelot-py[all]
pip install pandas

camelot-py 的安装可能需要其他依赖项,如 Tkinter 和 Ghostscript。在大多数情况下,它们应该在大多数 Linux 发行版和 macOS 中预安装。

# Tkinter
sudo apt-get install python3-tk  # Debian/Ubuntu
sudo yum install python3-tkinter  # CentOS/RHEL
# Ghostscript
sudo apt-get install ghostscript  # Debian/Ubuntu
sudo yum install ghostscript  # CentOS/RHEL

实现代码

import fitz  # PyMuPDF
import camelot
import pandas as pd# 路径到您的 PDF 文件
file_path = 'path_to_file.pdf'# 打开 PDF 文件
doc = fitz.open(file_path)# 存储包含表格的页面编号
table_pages = []# 检查每个页面以确定是否包含表格
for page_num in range(len(doc)):print(f"Page {page_num} is finding.\n")page = doc.load_page(page_num)text = page.get_text("text")if "表格中关键文本" in text and "表格中关键文本" in text and "表格中关键文本" in text:  # 替换为检测表格的逻辑table_pages.append(page_num + 1)  # 页面编号是从 1 开始的doc.close()# 提取表格数据
all_tables = []
first_table = True  # 用于跟踪是否是第一个表格for page_num in table_pages:print(f"Table {page_num} is getting.\nTotal table number is {len(table_pages)}.\n")# 提取指定页面的表格tables = camelot.read_pdf(file_path, pages=str(page_num), flavor='lattice')     # flavour='stream'为空白划分表格方式,flavor='lattice'为线条划分表格方式。for table in tables:		# 这里是针对重复的表格头设计的,舍弃了重复的表格头# 如果是第一个表格,保留标题if first_table:all_tables.append(table.df)first_table = Falseelse:# 如果不是第一个表格,跳过标题行all_tables.append(table.df[1:])# 是否提取到表格
if all_tables:          # 提取到表格# 合并所有提取的表格final_table = pd.concat(all_tables, ignore_index=True)# 导出到 CSVfinal_table.to_csv('path_to_file.csv', index=False)print("表格数据已提取并保存到 'path_to_file.csv'")else:                   # 未提取到表格print("没有提取到任何表格数据")
http://www.lryc.cn/news/248856.html

相关文章:

  • 一文教你使用Swagger---适合新手小白(结合实战)
  • VC++调试QT源码
  • 058-第三代软件开发-文件Model
  • 【领域驱动设计 学习目标及大纲】从CRUD到架构设计
  • asla四大开源组件应用示例(alsa-lib、alsa-utils、alsa-tools、alsa-plugins)
  • 文档理解的新时代:LayOutLM模型的全方位解读
  • 【二叉树】Leetcode 637. 二叉树的层平均值
  • 设计模式-15-Jdk源码中的设计模式
  • Vue框架学习笔记——事件scroll和wheel的区别
  • 【LeetCode】每日一题 2023_11_29 无限集中的最小数字(哈希/堆)
  • C/C++ 常用的四种查找算法
  • Linux | Ubuntu设置 netstat(网络状态)
  • 成为AI产品经理——模型构建流程(下)
  • TCP Socket API 讲解,以及回显服务器客户端的实现
  • 2023年掌控安全学院CTF暖冬杯——数据流分析
  • UE4 基础篇十四:自定义插件
  • QT QGraphicsItem 图元覆盖导致鼠标点击事件不能传递到被覆盖图元
  • proto语法学习笔记
  • python-nmap库使用教程(Nmap网络扫描器的Python接口)(功能:主机发现、端口扫描、操作系统识别等)
  • 什么是智慧工地?
  • 【古月居《ros入门21讲》学习笔记】08_发布者Publisher的编程实现
  • 沿着马可·波罗的足迹,看数字云南
  • 记录问题-使用@Validated报错Validation failed for argument [0]
  • three.js--立方体
  • App的测试,和传统软件测试有哪些区别?应该增加哪些方面的测试用例?
  • 改进LiteOS中物理内存分配算法(详细实验步骤+相关源码解读)
  • 洛谷100题DAY8
  • 2. OpenHarmony源码下载
  • flask app.config 用法
  • 【Vue】【uni-app】实现工单列表项详情页面