当前位置: 首页 > news >正文

python提取word文本和word图片

提取文本

docx只支持docx格式,所以如果想读取doc需要另存为docx格式即可

import docx # pip3 install python-docx
doc = docx.Document('three.docx')
for paragraph in doc.paragraphs:print(paragraph.text)

提取图片

import zipfile
import os, re
# docx本质上也是个压缩文件,使用zip我们就可以看到所有图片都被保存到了word/media里边
# 我们将该文件夹下的数据获取即可
with zipfile.ZipFile('one.zip', 'r') as zip_ref:for name in zip_ref.namelist():if len(re.findall(r'^word/media/', name)) > 0:zip_ref.extract(name, '')
http://www.lryc.cn/news/157474.html

相关文章:

  • iOS开发Swift-9-SFSymbols,页面跳转,view屏幕比例,启动页-和风天气AppUI
  • 代码优化工具-测试程序执行时间-IDEAdebug+StopWatch
  • 力扣每日一题---2594. 修车的最少时间
  • 【jvm】运行时数据区
  • SpringMVC相对路径和绝对路径
  • IIS perl python cbrother php脚本语言配置及简单测试样例程序
  • Oracle Scheduler中日期表达式和PLSQL表达式的区别
  • Java设计模式:一、六大设计原则-06:依赖倒置原则
  • 信息系统数据同步解决方案
  • LRU算法 vs Redis近似LRU算法
  • 浅析ARMv8体系结构:异常处理机制
  • Golang开发--Goroutine的使用
  • 【Linux】package ‘python-yaml‘ has no installation candidate 如何解决
  • Selector选择器在AspNetCore中的用法
  • anaconda3最新版安装|使用详情|Error: Please select a valid Python interpreter
  • java八股文面试[多线程]——锁的分类
  • 儿童安全门和围栏,以及游戏围栏等美国站要求的合规标准是什么?
  • kafka配合ElasticStack技术栈的搭配使用
  • 对极几何与三角化求3D空间坐标
  • 英语语法笔记
  • ES6的面向对象编程以及ES6中的类和对象
  • ConfigMaps in K8s
  • 《机器人学一(Robotics(1))》_台大林沛群 第 6 周 【轨迹规划_直线转折处抛物线平滑】Quiz 6
  • 关于vscode的GitLens插件里的FILE HISTORY理解
  • 通过idea实现springboot集成mybatys
  • 力扣(LeetCode)算法_C++——移位字符串分组
  • Vue2 与Vue3的区别?面试题
  • java代码:Random和Scanner应用的小例子-猜数字小游戏
  • python调用git出错:ImportError: Failed to initialize: Bad git executable.
  • 【C语言】入门——指针