当前位置: 首页 > news >正文

pdf格式转换为txt格式

pdf文档转换为txt文档

首先在python3虚拟环境中安装PyPDF2

Python 3.6.8 (default, Jun 20 2023, 11:53:23) 
[GCC 4.8.5 20150623 (Red Hat 4.8.5-44)] on linux
Type "help", "copyright", "credits" or "license" for more information.
>>> import sys
>>> sys.path
['', '/usr/lib64/python36.zip', '/usr/lib64/python3.6', '/usr/lib64/python3.6/lib-dynload', '/home/clusteruser/env3/lib64/python3.6/site-packages', '/home/clusteruser/env3/lib64/python3.6/site-packages/setuptools-58.0.4-py3.6.egg', '/home/clusteruser/env3/lib64/python3.6/site-packages/selenium-3.141.0-py3.6.egg', '/home/clusteruser/env3/lib64/python3.6/site-packages/urllib3-1.26.6-py3.6.egg', '/home/clusteruser/env3/lib/python3.6/site-packages', '/home/clusteruser/env3/lib/python3.6/site-packages/setuptools-58.0.4-py3.6.egg', '/home/clusteruser/env3/lib/python3.6/site-packages/selenium-3.141.0-py3.6.egg', '/home/clusteruser/env3/lib/python3.6/site-packages/urllib3-1.26.6-py3.6.egg']
>>> quit();
(env3) [clusteruser@node0xc7 pdf-txt]$ pip3 install --target='/home/clusteruser/env3/lib64/python3.6/site-packages' PyPDF2
Collecting PyPDF2
  Downloading pypdf2-3.0.1-py3-none-any.whl (232 kB)
     |████████████████████████████████| 232 kB 407 kB/s            
Collecting typing_extensions>=3.10.0.0
  Downloading typing_extensions-4.1.1-py3-none-any.whl (26 kB)
Collecting dataclasses
  Downloading dataclasses-0.8-py3-none-any.whl (19 kB)
Installing collected packages: typing-extensions, dataclasses, PyPDF2
Successfully installed PyPDF2-3.0.1 dataclasses-0.8 typing-extensions-4.1.1

***************************************************************************************

完成代码

(env3) [clusteruser@node0xc7 pdf-txt]$ cat pdf-text.py 
import PyPDF2

def pdf_to_text(pdf_path, txt_path):
    with open(pdf_path, 'rb') as pdf_file:
        reader = PyPDF2.PdfReader(pdf_file)
        text = ''
        for page_number in range(len(reader.pages)):
            text += reader.pages[page_number].extract_text()
    
    with open(txt_path, 'w', encoding='utf-8') as txt_file:
        txt_file.write(text)

# 调用函数进行转换
pdf_to_text('input.pdf', 'output.txt')

执行代码

python3 pdf-text.py

http://www.lryc.cn/news/272782.html

相关文章:

  • scss使用for循环遍历,动态赋值类名并配置不同颜色
  • GaussDB数据库使用COPY命令导数
  • SunFMEA软件免费试用:FMEA的目标和限制是什么?
  • 【Redis交响乐】Redis中的数据类型/内部编码/单线程模型
  • APK 瘦身
  • GitHub上的15000个Go模块存储库易受劫持攻击
  • 避免3ds Max效果图渲染一片黑的4个正确解决方法
  • UI演示双视图立体匹配与重建
  • 添加一个编辑的小功能(PHP的Laravel)
  • YOLOv8改进 | 主干篇 | ConvNeXtV2全卷积掩码自编码器网络
  • elasticsearch7.17.9两节点集群改为单节点
  • 二叉树的层序遍历,力扣
  • 构建Dockerfile报错/bin/sh: 1: cd: can‘t cd to /xxx/yyy问题记录
  • Vue常用的修饰符详解(有哪些,怎么用)
  • Linux C/C++ 获取CPUID
  • 2023年“中银杯”安徽省网络安全B模块(部分解析)
  • 194.【2023年华为OD机试真题(C卷)】单行道汽车通行时间(迭代计算—JavaPythonC++JS实现)
  • 第二证券机构策略:股指预计维持蓄势震荡格局 关注煤炭、电力等板块
  • Go 泛型之泛型约束
  • 【数据仓库与联机分析处理】数据仓库
  • 机器学习:贝叶斯估计在新闻分类任务中的应用
  • [C#]基于deskew算法实现图像文本倾斜校正
  • Qt通过pos()获取坐标信息
  • 【Webpack】资源输入输出 - 配置资源出口
  • 【XR806开发板试用】XR806串口驱动CM32M对小厨宝的控制实验
  • 中介者模式-Mediator Pattern-1
  • ASP.NET Core基础之图片文件(一)-WebApi图片文件上传到文件夹
  • 精准掌控 Git 忽略规则:定制化 .gitignore 指南
  • Harmony 开始支持 Flutter ,聊聊 Harmony 和 Flutter 之间的因果
  • k8s 之7大CNI 网络插件