当前位置：首页 > news >正文

PyMuPDF 操作手册 - 01 从PDF中提取文本

news 2025/7/25 8:38:08

文章目录

一、打开文件
二、从 PDF 中提取文本
- 2.1 文本基础操作
- 2.2 文本进阶操作
- - 2.2.1 从任何文档中提取文本
  - 2.2.2 如何将文本提取为 Markdown
  - 2.2.3 如何从页面中提取键值对
  - 2.2.4 如何从矩形中提取文本
  - 2.2.5 如何以自然阅读顺序提取文本
  - 2.2.6 如何从文档中提取表格内容
  - - 2.2.6.1 提取 1 页的 PDF，其中包含中文文本和两个表格
    - 2.2.6.2 读取多页 PDF，并联接已在这些页面中分段的表的各个部分
    - 2.2.6.3 确认支持 PyMuPDF 的表格功能用于常规文档（比较 XPS vs. PDF）
    - 2.2.6.4 使用PyMuPDF进行表分析1
    - 2.2.6.5 使用PyMuPDF进行表分析2
  - 2.2.7 如何标记提取的文本
  - 2.2.8 如何标记搜索到的文本
  - 2.2.9 如何标记非水平文本
  - 2.2.10 如何分析字体特征
  - 2.2.11 如何插入文本
  - - 2.2.11.1 如何编写文本行
    - 2.2.11.2 如何填充文本框
    - 2.2.11.3 如何用 HTML 文本填充框
    - - 2.2.11.3.1 如何输出 HTML 表格和图像
      - 2.2.11.3.2 如何输出世界语言
      - 2.2.11.3.3 如何指定自己的字体
      - 2.2.11.3.4 如何请求文本对齐
    - 2.2.11.4 如何提取带有颜色的文本
  - 2.2.12 获取页面链接

一、打开文件

https://pymupdf.readthedocs.io/en/latest/the-basics.html#extract-images-from-a-pdf

import pymupdfdoc = pymupdf.open("a.pdf") # open a document

在这里插入图片描述

二、从 PDF 中提取文本

https://pymupdf.readthedocs.io/en/latest/the-basics.html#

http://www.lryc.cn/news/377948.html

相关文章：

ResNet——Deep Residual Learning for Image Recognition(论文阅读)

java基础·小白入门（五）

微观时空结构和虚数单位的关系

go-zero使用goctl生成mongodb的操作使用方法

服务器新硬盘分区、格式化和挂载

Openldap集成Kerberos

(创新)基于VMD-CNN-BiLSTM的电力负荷预测—代码+数据

机器 reboot 后 kubelet 目录凭空消失的灾难恢复

Pytorch构建vgg16模型

分支结构相关

flutter开发实战-RichText富文本居中对齐

智慧消防新篇章：可视化数据分析平台引领未来

u8g2 使用IIC驱动uc1617 lcd有时候某些像素显示不正确

使用opencv合并两个图像

k8s学习笔记（一）

自学前端——JavaScript篇

高考毕业季--浅谈自己感想

遥感图像地物覆盖分类，数据集制作-分类模型对比-分类保姆级教程

【Android面试八股文】Kotlin内置标准函数let的原理是什么？

网工面试总结1

[stm32]密码锁

优化yarn在任务执行时核数把控不准确的问题

2024年，收付通申请开通流程

Django使用django-apscheduler实现定时任务

python数据分析：修改数据

【免费API推荐】：解锁无限创意，让您的应用更具竞争力（8）

STM32程序启动过程

天才简史——Diederik P. Kingma与他的Adam优化器

两个src案例分享