当前位置: 首页 > news >正文

文件解析:doc、docx、pdf

1.doc解析

ubuntu/debian系统应先安装工具

apt-get install python-dev libxml2-dev libxslt1-dev antiword unrtf poppler-utils pstotext tesseract-ocr \
flac ffmpeg lame libmad0 libsox-fmt-mp3 sox libjpeg-dev swig
pip install textract

解析:

import textract
text = textract.process(doc_file, input_encoding='utf-8')
text_str = str(text, 'utf-8')
print(text_str)

2.docx解析

pip install python-docxfrom docx import Document
import docx2txtdef read_docx(docx_file):doc = Document(docx_file)text = []for paragraph in doc.paragraphs:text.append(paragraph.text)return '\n'.join(text)
read_docx('path.docx')
http://www.lryc.cn/news/547622.html

相关文章:

  • 计算机网络基础:VLAN(虚拟局域网)
  • C++学习笔记(十一)——循环结构
  • 【C++】二叉树相关算法题
  • 物联网IoT系列之MQTT协议基础知识
  • 【大学生体质】智能 AI 旅游推荐平台(Vue+SpringBoot3)-完整部署教程
  • 【Node.js入门笔记1---初始Node.js)】
  • 自学Java-JavaSE基础加强(多线程)
  • 数字后端培训实战项目六大典型后端实现案例
  • 安卓免费多功能工具:一站式解决 PDF 阅读、编辑、转换等需求
  • diffuser库使用本地模型生成图像
  • 递归—基础算法
  • 全面复习回顾——C++语法篇2
  • 探秘基带算法:从原理到5G时代的通信变革【十】基带算法应用与对比
  • Linux | Vim 鼠标不能右键粘贴、跨系统复制粘贴
  • 无人机遥控器扩频技术解析!
  • Spring Boot API 项目中 HAProxy 与 Nginx 的选择与实践
  • OpenBMC:BmcWeb构造connect对象
  • ORB-SLAM2源码学习(六):相机跟踪(局部地图跟踪和关键帧创建)
  • WordPress使用(3)
  • Docker基础篇——什么是Docker与Docker的仓库、镜像、容器三大概念
  • Gitlab配置personal access token
  • 使用STM32CubeMX实现LED灯每秒闪烁一次(STM32G070CBT6单片机)
  • django中路由配置规则的详细说明
  • 游戏引擎学习第138天
  • 测试理论快速入门
  • 【PostgreSQL】如何免密使用PostgreSQL数据库内置工具
  • 模块15.常用API
  • 5c/c++内存管理
  • python实现的可爱卸载动画
  • 微服务的春天:基于Spring Boot的架构设计与实践