当前位置: 首页 > news >正文

【python爬虫】批量识别pdf中的英文,自动翻译成中文上

不管是上学还是上班,有时不可避免需要看英文文章,特别是在写毕业论文的时候。比较头疼的是把专业性很强的英文pdf文章翻译成中文。我记得我上学的时候,是一段一段复制,或者碰到不认识的单词就百度翻译一下,非常耗费时间。本文提供批量识别pdf中英文的方法,后续文章实现自动pdf英文转中文文档,敬请期待。

文章目录

    • 一、安装pdfplumber库
    • 二、识别单个pdf的内容
      • 1 识别单页的内容
      • 2 识别所有页的内容
    • 三、识别文件夹中所有pdf的内容

  

一、安装pdfplumber库

  
识别pdf中的内容,需要用到pdfplumber库,所以首先安装pdfplumber库,常规代码如下:

pip install pdfplumber

但是在安装过程会报如下错误:
  
图片

上网找了一下资料,发现可以使用国内的镜像进行安装

国内的一些pip源:
阿里云 http://mirrors.aliyun.com/pypi/simpl
http://www.lryc.cn/news/152749.html

相关文章:

  • Android笔记--Hilt
  • Oracle常用权限处理
  • Stable Diffuse 之 本地环境部署 WebUI 进行汉化操作
  • r 安装源码包 安装本地r包
  • webservice调用对接第三方系统
  • 实现不同局域网文件共享的解决方案:使用Python自带HTTP服务和端口映射
  • [Android 四大组件] --- Activity
  • shell中for循环输出1-6
  • docker 04.更加重要的命令
  • 【理解线性代数】(二)线性运算和线性空间
  • 专业的视觉特效处理包,FxFactory 8 Pro for Mac助您打造精彩视频
  • Darshan日志分析
  • python中如何不修改字符串的前提,使其对大小写字母不敏感
  • 聊聊Http服务化改造实践
  • docker打包部署
  • 解密Spring MVC异常处理:从局部到全局,打造稳固系统的关键步骤
  • Three.js添加阴影和简单后期处理
  • git submodule 子模块的基本使用
  • 四层负载均衡的NAT模型与DR模型推导 | 京东物流技术团队
  • 【vue】vue前端实现随机验证码(数字、字母混合)功能
  • 使用Visual Studio 2022实现透明按钮和标签、POPUP样式窗体的一种工业系统的UI例程
  • 【爬虫】7.1. JavaScript动态渲染界面爬取-Selenium
  • 菜鸟教程《Python 3 教程》笔记(12):推导式
  • MAC修改python3命令为py
  • Windows下Git Bash调用rsync
  • springboot自定义事件发布及监听
  • 手写RPC框架--2.介绍Zookeeper
  • Docker harbor 私有仓库的部署和管理
  • 从零开始搭建AI网站(6):如何使用响应式编程
  • MPI之虚拟进程拓扑