当前位置: 首页 > news >正文

pymupdf提取pdf表格及表格数据合并

pymupdf提取pdf表格非常快速,相比其他库是个更好的选择.

一个行列多的表格打印成pdf后会由于页宽分页原因变成多个表格,提取的多个表格需要合并为一个表格,再来处理数据.

下面代码中merge函数用于合并表格.addOneAxis0用于合并仅分页导致的多子表.

def addOneAxis0(data,one):if len(data)==0:#firstr=oneelse:r=data+one[1:]#remove first title rowreturn r    def merge(data):output=data[0]titles=data[0][0][1:]for i in range(1,len(data)):newtitle=data[i][0][1:]# print(titles)# print(newtitle)# input("here")if newtitle[0] in titles:#repeatfor one in data[i][1:]:#add rowoutput.append(one)else:#if newtitle[0] in output[0]:#add column without titlethedata=data[i][1:]#remove titlen=len(thedata)out=output[-n:]for j in range(len(out)):out[j]+=thedata[j][1:]passelse:#add column with titlen=len(data[i])out=output[-n:]for j in range(len(out)):#add columnout[j]+=data[i][j][1:]passreturn output
def getDataMass(file_name):global doc,curvePagedoc=fitz.open(file_name) # open documentdata=[]mass=[]tables=[]i=Nonefor i in range(doc.page_count).__reversed__():page = doc[i]tabs=page.find_tables()if len(tabs.tables)==0:breakelse:tables.append(tabs[0].extract())tables.reverse()for one in tables:if one[0][0]=="溶液标签":data.append(one)#data.append(one)else:mass=addOneAxis0(mass,one)curvePage=iprint(data)data=merge(data)print(data)return (data,mass)

http://www.lryc.cn/news/363985.html

相关文章:

  • 门外汉一次过软考中级(系统集成项目管理工程师)秘笈,请收藏!
  • [leetcode hot 150]第一百零八题,将有序数组转换为二叉搜索树
  • 科普丨什么是数字孪生灌区(平台)?如何建设?有何好处?
  • Python爬虫如何入门:一步步走向精通的指南
  • Linux用户和用户组的操作
  • git命令行分支(增删改查)
  • 地理加权回归GWR简介
  • 康谋技术 | 自动驾驶:揭秘高精度时间同步技术(一)
  • 客户端被攻击怎么办,为什么应用加速这么适合
  • Introduction to HAL3
  • Vue02-搭建Vue的开发环境
  • Python | 句子缩写
  • STM32自己从零开始实操04:显示电路原理图
  • 数分—AB测试
  • 基于全志T507-H的Igh EtherCAT主站案例分享
  • 刷题记录(20240605)
  • CUDA和OpenGL纹理texture结合
  • 市场凌乱,智能算法哪种效果好?
  • 学会这14大招,30天涨粉两三千没问题!沈阳新媒体运营培训
  • SQL数据库性能优化
  • eNSP学习——RIP路由协议基础配置
  • 备考系统架构设计师,看这篇就够了!(包括核心总结、真题、论文、模拟试题索引)
  • stm32编译原理
  • 如何以JNI方式实现安卓APP控制GPIO?
  • 计算机网络学习笔记——运输层(b站)
  • HBase数据库面试知识点:第二部分 - 核心技术(持续更新中)
  • Spring 使用SSE(Server-Sent Events)学习
  • 词法分析器的设计与实现--编译原理操作步骤,1、你的算法工作流程图; 2、你的函数流程图;3,具体代码
  • linux查看磁盘类型命令
  • 多线程调用同一个不包含可变状态,并且是线程安全的方法时,可同时执行,不必等待排队