当前位置：首页 > news >正文

使用pymupdf提取PDF文档中的文字和其颜色

news 2025/8/22 5:29:51

最近我在捣鼓一个PDF文件，想把它里面的文字和文字颜色给提取出来。后来发现有个叫pymupdf的库能搞定这事儿。操作起来挺简单的，pymupdf的示例文档里就有现成的代码可以参考。
how-to-extract-text-with-color
在这里插入图片描述

我本地的测试代码如下：

import pymupdf
import sys# sys.argv[1] 为文件名！
doc = pymupdf.open(sys.argv[1])
page = doc[0]for page in doc:text_blocks = page.get_text("dict", flags=pymupdf.TEXTFLAGS_TEXT)["blocks"]for block in text_blocks:for line in block["lines"]:for span in line["spans"]:text = span["text"]color = pymupdf.sRGB_to_rgb(span["color"])print(f"Text: {text}, Color: {color}")

运行效果如下：
在这里插入图片描述
我弄的那个文档里，有一块内容是这样的，项目里的文字被标成橙色，就是那种选中后的样子，所以我特别留意了它的颜色提取。

所以我需要抽取出文字的同时，还需要文字的颜色

推荐相关的文章 PymuPDF4llm：PDF 提取的革命

http://www.lryc.cn/news/496317.html

相关文章：

贪心算法题

Python 3 教程第33篇（MySQL - mysql-connector 驱动）

23种设计模式之外观模式

GateWay使用手册

IDEA使用HotSwapHelper进行热部署

简单web项目自定义部署Dockerfile

基础Web安全|SQL注入

SpringBoot -拦截器Interceptor、过滤器 Filter 及设置

avcodec_alloc_context3，avcodec_open2，avcodec_free_context，avcodec_close

强化学习的几个主要方法（策略梯度、PPO、REINFORCE实现等）（下）

计算机网络：IP协议详细讲解

2024信创数据库TOP30之华为Gauss DB

在线家具商城基于 SpringBoot：设计模式与实现方法探究

九、Spring Boot集成Spring Security之授权概述

python之Flask入门—路由参数

txt地图格式处理

《数据挖掘：概念、模型、方法与算法（第三版）》

GitLab CVE-2024-8114 漏洞解决方案

request和websocket

一键生成后端服务，MemFire Cloud重新定义开发效率

短视频矩阵的营销策略：批量混剪实现高效传播

朗迪锋亮相2024人因工程与智能系统交互国际会议

spring boot3.3.5 logback-spring.xml 配置

Proteus8.17下载安装教程

一次Kafka启动失败引出的问题

mysql 查询所有的触发器

704. 二分查找 C++

SpringCloud Seata集成分布式事务管理事务保护 XA AT两种模式的区别