当前位置: 首页 > news >正文

python-docx顺序读取word内容

来源How to use Python iteration to read paragraphs, tables and pictures in word? · Issue #650 · python-openxml/python-docx (github.com)

from docx import Document
from docx.oxml.ns import qndef iter_block_items(parent):"""生成 `parent` 元素的每个块级元素,包括段落和表格。"""parent_elm = parent.element.bodyfor child in parent_elm.iterchildren():if child.tag == qn('w:p'):yield 'p', childelif child.tag == qn('w:tbl'):yield 'tbl', child# 打开文档
doc = Document("example.docx")paragraphs = doc.paragraphs
tables = doc.tablesparagraph_index = 0
table_index = 0for block_type, block in iter_block_items(doc):if block_type == 'p':paragraph = paragraphs[paragraph_index]print("Paragraph:", paragraph.text)paragraph_index += 1elif block_type == 'tbl':table = tables[table_index]table_index += 1if table:print("Table:")for n_r, row in enumerate(table.rows):print(f"    Row {n_r}: ")for n_c, cell in enumerate(row.cells):print(f"        Column {n_c}:", cell.text, end=' ')print()
http://www.lryc.cn/news/380344.html

相关文章:

  • kafka 集群原理设计和实现概述(一)
  • three.js 第十一节 - uv坐标
  • git从master分支创建分支
  • Chromium 调试指南2024 Mac篇 - 准备工作 (一)
  • vue登陆密码加密,java后端解密
  • npm 安装踩坑
  • 内容安全复习 6 - 白帽子安全漏洞挖掘披露的法律风险
  • dp经典问题:爬楼梯
  • 示例:推荐一个基于第三方QRCoder.Xaml封装的二维码显示控件
  • 阿里云服务器618没想到这么便宜,买早了!
  • 提升Python技能的七个函数式编程技巧
  • 微型操作系统内核源码详解系列五(五):cm3下Pendsv切换任务上篇
  • Django测试平台搭建学习笔记1
  • 本地离线模型搭建指南-RAG架构实现
  • 【IPython 使用技巧整理】
  • 什么是孪生素数猜想
  • Python学习笔记16:进阶篇(五)异常处理
  • Mac 安装依赖后依旧报错 ModuleNotFoundError: No module named ‘Crypto‘
  • 【07】持久化-数据库选择和设计
  • 压力测试
  • C语言| 数组元素的删除
  • QListView、QTableView或QTreeView截取滚动区域(截长图)
  • 论文《Tree Decomposed Graph Neural Network》笔记
  • 控制下属很简单,用好这3大管人绝招,再跳的刺头也不敢造次
  • 2.APP测试-安卓adb抓取日志
  • 高考填报志愿选专业,要善于发掘自身优势
  • 如何在 Ubuntu 14.04 上使用 HAProxy 实现 SSL 终止
  • dockercompose
  • 「51媒体」活动会议,展览展会,直播曝光的一种方法
  • Go WebSocket入门+千万级别弹幕系统架构设计