当前位置: 首页 > news >正文

python -从文件夹批量提取pdf文章的第n页,并存储起来

python -从文件夹批量提取pdf文章的第n页,并存储起来

废话不多说,看下面代码

讲解一下下面代码

reader = PyPDF2.PdfReader (file)
将文件转化为PdfReader 对象,方便使用内置方法。
first_page = reader.pages[0]
提取第一页

writer = PyPDF2.PdfWriter ()
writer.add_page (first_page)
writer.write(output_file)
将代码写入对应位置

def process_folder(folder_path):# 遍历文件夹中的所有文件for filename in os.listdir(folder_path):if filename.endswith('.pdf'):pdf_path = os.path.join(folder_path, filename)print(pdf_path)output_path = os.path.join('D:\data\pdf_output', filename[0:-4]+'(首页)'+'.pdf')# 提取第一页并保存为同名文件extract_first_page(pdf_path, output_path)print(f"Processed {filename}")

读取某个文件夹下的所有pdf文件,并调用函数取出第一页,并写下来。

import os
import PyPDF2def extract_first_page(pdf_path, output_path):# 打开PDF文件with open(pdf_path, 'rb') as file:reader = PyPDF2.PdfReader (file)# 获取第一页first_page = reader.pages[0]# 写入新PDF文件with open(output_path, 'wb') as output_file:writer = PyPDF2.PdfWriter ()writer.add_page (first_page)writer.write(output_file)def process_folder(folder_path):# 遍历文件夹中的所有文件for filename in os.listdir(folder_path):if filename.endswith('.pdf'):pdf_path = os.path.join(folder_path, filename)print(pdf_path)output_path = os.path.join('D:\data\pdf_output', filename[0:-4]+'(首页)'+'.pdf')# 提取第一页并保存为同名文件extract_first_page(pdf_path, output_path)print(f"Processed {filename}")# 指定你的文件夹路径
folder_path = 'D:\data\pdf'
process_folder(folder_path)
http://www.lryc.cn/news/493157.html

相关文章:

  • R Excel 文件操作指南
  • RabbitMQ 安装延迟队列插件 rabbitmq_delayed_message_exchange
  • fatal error in include chain (rtthread.h):rtconfig.h file not found
  • Java 反射(Reflection)
  • Python爬取机车网车型数据并存入Mysql数据库
  • fpga 时序分析基础
  • python学习——二维列表的列表生成式
  • 【错误❌】——槽函数定义好但未初始化
  • OpenCV相机标定与3D重建(6)将3D物体点投影到2D图像平面上函数projectPoints()的使用
  • 【Linux】剧幕中的灵魂更迭:探索Shell下的程序替换
  • 38 基于单片机的宠物喂食(ESP8266、红外、电机)
  • Unity中的数学应用 之 角色移动中单位化向量的妙用 (小学难度)
  • 设置ip和代理DNS的WindowsBat脚本怎么写?
  • 字符串分割转换(Java Python JS C++ C )
  • 【Maven】项目创建
  • number的++和--运算 C#
  • 浅谈网络 | 应用层之HTTPS协议
  • 2、Three.js初步认识场景Scene、相机Camera、渲染器Renderer三要素
  • Deepwave 声波正演和弹性波正演
  • 【WRF-Urban】多层建筑能源参数化模型概述:原理
  • 基于Qt实现的自定义树结构容器:设计与应用
  • 网络命令Linux
  • 简单的Activiti Modoler 流程在线编辑器
  • 【NodeJS】Express写接口的整体流程
  • Oracle 锁表的解决方法及避免锁表问题的最佳实践
  • 关于 vue+element 日期时间选择器 限制只能选当天以及30天之前的日期
  • 租辆酷车小程序开发(二)—— 接入微服务GRPC
  • 如何在 Ubuntu 22.04 上安装 Metabase 数据可视化分析工具
  • MySQL 用户与权限管理
  • 【Web前端】如何构建简单HTML表单?