当前位置：首页 > news >正文

Python读取PDF文字去掉页眉页脚

news 2025/9/10 19:15:56

使用PyMuPDF（即fitz）读取PDF中的text时，会把页码也读进来。所以，有时候就需要让程序忽略页眉和页脚，或者直接删除页眉和页脚。

根据fitz的文档：Page - PyMuPDF 1.24.0 documentation

get_text的clip参数可以指定要读取文字的区域，于是大致代码如下：

doc = fitz.open(fname)
page = doc[0]
rect = page.rect
clip = 50 # 假设页眉和页脚的高度都是50
crop = fitz.Rect(0, clip, rect.width, rect.height-clip)
text = page.get_text(clip=crop)

查看全文

http://www.lryc.cn/news/330478.html

Linux：入门篇

NSSCTF Round#20 Basic 真亦假，假亦真 CSDN_To_PDF V1.2 出题笔记（附wp+源码）

处理关于 React lazy 白屏的两种方案

Nginx 基础

C++完美转发（适合小白）

如何创建自己的 Spring Boot Starter 并为其编写单元测试

C++ ：STL中deque的原理

AttributeError: ‘Namespace‘ object has no attribute ‘EarlyStopping‘

深度学习pytorch——卷积神经网络（持续更新）

【edge浏览器无法登录某些网站，以及迅雷插件无法生效的解决办法】

OpenHarmony无人机MAVSDK开源库适配方案分享

模型训练----parser.add_argument添加配置参数

数字未来：探索 Web3 的革命性潜力

群晖NAS使用Docker部署大语言模型Llama 2结合内网穿透实现公网访问本地GPT聊天服务

[选型必备基础信息] 存储器

C++——C++11线程库

机器学习 | 线性判别分析（Linear Discriminant Analysis）

TypeScript-数组、函数类型

Python深度学习034：cuda的环境如何配置

【论文笔记】Text2QR

【ReadPapers】A Survey of Large Language Models

站群CMS系统

landsat8数据产品说明

Golang 内存管理和垃圾回收底层原理(二)

OpenHarmony：全流程讲解如何编写ADC平台驱动以及应用程序

计算机学生求职简历的一些想法

网工内推 | 售前专场，需熟悉云计算技术，上市公司，提成高

excel匹配替换脱敏身份证等数据

[技术笔记] Flash选型之基础知识芯片分类

Jenkins常用插件安装及全局配置

相关文章：