当前位置: 首页 > news >正文

Python办公自动化教程(001):PDF内容提取

1、Pdfplumber介绍

pdfplumber的github地址:

https://github.com/jsvine/pdfplumber/
  • 【介绍】:pdfplumber 是一个用于处理 PDF 文件的 Python 第三方库,它提供了一种方便的方式来提取 PDF 文件中的文本、表格和其他信息。
  • 【功能】:pdfplumber 主要用于解析和提取 PDF 文件中的文本、表格、图像等信息。
    适用版本:支持 Python 3.6 及以上版本。
  • 【特点】:简单易用、准确性高、多平台支持(包括 Windows、Mac 和 Linux)、功能强大。
  • 【安装】:pip install pdfplumber

2、内容提取

【1】读取page对象

代码:

import pdfplumberwith pdfplumber.open('./file/test.pdf') as read_pdf:# 读取page对象print(read_pdf.pages)

输出结果:

在这里插入图片描述

【2】打印完整内容

代码:

import pdfplumberwith pdfplumber.open('./file/test.pdf') as read_pdf:# 读取page对象pages = read_pdf.pagesfor page in range(len(pages)):text = read_pdf.pages[page].extract_text()print(f'--------------第{page + 1}页内容---------------')print(text)

打印结果:

在这里插入图片描述

http://www.lryc.cn/news/443463.html

相关文章:

  • HarmonyOS鸿蒙开发实战(5.0)自定义全局弹窗实践
  • 【AI学习】了解OpenAI o1背后的self-play RL:开启新的智能道路
  • Java项目实战II基于Java+Spring Boot+MySQL的车辆管理系统(开发文档+源码+数据库)
  • IPsec-VPN中文解释
  • Ubuntu 22.04 源码下载、编译
  • 【深度学习实战—11】:基于Pytorch实现谷歌QuickDraw数据集的下载、解析、格式转换、DDP分布式训练、测试
  • 基于SpringBoot+WebSocket实现地图上绘制车辆实时运动轨迹图
  • 嵌入式入门小工程
  • hackmyvm靶场--zon
  • atcoder abc372 启发式合并, dp
  • CentOS Stream 9部署MariaDB
  • 【Leetcode:997. 找到小镇的法官 + 入度出度】
  • 大数据Flink(一百二十三):五分钟上手Flink MySQL连接器
  • SYN Flood攻击原理,SYN Cookie算法
  • 计组(蒋)期末速成笔记1
  • mysql学习教程,从入门到精通,SQL 更新数据(UPDATE 语句)(17)
  • 【吊打面试官系列-MySQL面试题】MyISAM 表格将在哪里存储,并且还提供其存储格式?
  • 常用的图像增强的算法之间的联系和区别
  • SpringBoot+Vue考试系统免费分享
  • 音视频入门基础:FLV专题(1)——FLV官方文档下载
  • 使用c#制作一个小型桌面程序
  • Clip studio paint百度云下载:附安装包+教程
  • 从Yargs源码学习中间件的设计
  • 高级I/O知识分享【epoll || Reactor ET,LT模式】
  • Matlab 的.m 文件批量转成py文件
  • 【软考】传输层协议TCP与UDP
  • Arthas dashboard(当前系统的实时数据面板)
  • 微服务保护之熔断降级
  • TomCat乱码问题
  • 依赖库查看工具Dependencies