当前位置: 首页 > news >正文

python读取word/pdf文档,指定文字内容和图片

读编号转文件夹目录然后放图片进去那个


一 先将word转为PDF

pdf 读起来比较方便, 按页码读取文件:

import pdfplumber
from PIL import Image
import cv2
import numpy as np
import re
import os
import logging
import iodef create_folder(folder_name):if not os.path.exists(folder_name):os.makedirs(folder_name)def CountPages(file_path):"""根据编号创建文件夹:param file_path::return:"""with pdfplumber.open(file_path) as pdf:count = 0for page in pdf.pages:count += 1print(f"----------- 第{count}页 ----------- \n\n")text = page.extract_text()matches = re.findall(r'编号\s*(\S+)', text)if matches:for match in matches:if '*' in match:logging.warning(f'编号名称存在不能使用的字符,需要单独调整,Page {count}, 编号后面的内容: {match}')folder_name = 'new_files/' + f'000 error Page_{count}'# continueelse:# folder_name = './new_files/' + matchfolder_name = './new_files/' + f'{count}_' + matchcreate_folder(folder_name)images = page.imagesprint(f'images: {images}')for i, img in enumerate(images):# x0, y0, x1, y1 = img["x0"], img["y0"], img["x1"], img["y1"]img_stream = img["stream"]# 从流中提取图像数据img_data = img_stream.get_data()# 使用数据创建新图像pil_img = Image.open(io.BytesIO(img_data))# 将图像保存为 JPGimg_filename = f"{folder_name}/image_{count}_{i + 1}.jpg"pil_img.save(img_filename, format="JPEG")print(f"保存图像:{img_filename}")return count"""1 需要先将文档转换为 pdf2 文件夹名称不要页码改 39 行3 编号最好不要出现 * 这种不能作为文件名的符号4 filePath 改文件路径5 保存文件在同级文件目录下
"""# filePath = r"E:\11-normal_program\registration_card.pdf"
filePath = r"./registration_card.pdf"
CountPages(filePath)

http://www.lryc.cn/news/126754.html

相关文章:

  • 零售行业供应链管理核心KPI指标(二) – 线上订单履行周期
  • VGG分类实战:猫狗分类
  • C++11并发与多线程笔记(3)线程传参详解,detach()大坑,成员函数做线程函数
  • 说几个常见的语法糖
  • Python文件操作与输入输出:从基础到高级应用
  • leetcode算法题--找出最安全路径
  • 神经网络基础-神经网络补充概念-34-正则化
  • idea打jar包
  • 民安汇智(第三方旅游服务暗访)开展旅游景区度假区明察暗访复核检查服务
  • 《游戏编程模式》学习笔记(六)单例模式 Singleton Pattern
  • 《Go 语言第一课》课程学习笔记(二)
  • 神经网络基础-神经网络补充概念-26-前向和反向传播
  • Gin路由组
  • 安防监控视频云存储平台EasyNVR通道频繁离线的原因排查与解决
  • Redis-分布式锁!
  • Unity如何把游戏导出成手机安装包
  • 使用爱校对软件保证公文材料质量的关键步骤
  • Spring Data Elasticsearch 的简单使用
  • 2024」预备研究生mem-角平分线定理中线定理垂线定理、射影定理
  • nginx部署时http接口正常,ws接口404
  • 数学建模的概念和学习方法(什么是数学建模)
  • ChatGPT在智能安全监测和入侵检测中的应用如何?
  • 智能数据建模软件DTEmpower 2023R2新版本功能介绍
  • BDA初级分析——认识SQL,认识基础语法
  • Qt应用开发(基础篇)——MDI窗口 QMdiArea QMdiSubWindow
  • 图片转换成pdf格式?这几种转换格式方法了解一下
  • thingsboard编译安装踩坑记录
  • 汇编语言例子集合
  • 强化学习:用Python训练一个简单的机器人
  • 【Docker】Docker使用之容器技术发展史