当前位置：首页 > news >正文

pdf文档内容提取pdfplumber、PyPDF2

news 2025/7/15 0:21:26

测试pdfplumber识别效果好些；另外pdf这两个如果超过20多页就没法识别了，结果为空

1、pdfplumber

安装：pip install pdfplumber -i http://mirrors.aliyun.com/pypi/simple --trusted-host mirrors.aliyun.com

代码：

import pdfplumberwith pdfplumber.open(r"C:\Users\loong\Downloads\数字人研究报告.pdf") as pdf:num_pages = len(pdf.pages)print(num_pages)for page_num in range(num_pages):page = pdf.pages[page_num]text = page.extract_text()print(text)

原内容
在这里插入图片描述
识别结果：

2、PyPDF2

安装：pip install PyPDF2

代码：

import PyPDF2
from tqdm import tqdmpdftext = ""
with open(r"C:\Users\loong\Desktop\杰创\大模型\杰创智能.pdf", "rb") as pdfFileObj:pdfReader = PyPDF2.PdfReader(pdfFileObj)for page in tqdm(pdfReader.pages):pdftext += page.extract_text()print(pdftext)

http://www.lryc.cn/news/187251.html

相关文章：

利用freesurfer6进行海马分割的环境配置和步骤，以及获取海马体积

轻松实现时间录入自由！如何在Microsoft Word中轻松插入格式化的日期和时间

【排序算法】选择排序

Netty深入浅出（无处不在的IO）

华为C语言编程规范（2W字总结）

操作系统学习笔记2

KylinOSv10系统k8s集群启动mysql5.7占用内存高的问题

c语言练习84：动态内存管理

[Go版]设计模式——Template模版方法模式

数据结构 | (四) Queue

让照片人物开口说话，SadTalker 安装及使用（避坑指南）

系统架构设计：6 论软件质量保证及其应用

vscode的窗口下拉显示行数不够

Linux UWB Stack实现——MCPS调度接口（数据结构）

2023Q3数据安全政策、法规、标准及报告汇总（附下载）

Ceph入门到精通-iptables 限制多个ip 的多个端口段访问

【C/C++】STL——深度剖析vector容器

如何在idea中隐藏文件或文件夹

Scala第二十章节

redis的持久化消息队列

分类预测 | MATLAB实现KOA-CNN开普勒算法优化卷积神经网络数据分类预测

用 Pytorch 自己构建一个Transformer

Docker安装ActiveMQ

【二】spring boot-设计思想

系统架构设计：7 论企业集成架构设计及应用

【pytorch】多GPU同时训练模型

Git 学习笔记 | Git 基本理论

滚动表格封装