当前位置: 首页 > news >正文

Python使用lxml解析XML格式化数据

Python使用lxml解析XML格式化数据

  • 1. 效果图
  • 2. 源代码
  • 参考

方法一:无脑读取文件,遇到有关键词的行再去解析获取值
方法二:利用lxml等库,解析格式化数据,批量获取标签及其值

这篇博客介绍第2种办法,以菜鸟教程中的俩个xml文档为例进行解析;
https://www.runoob.com/try/xml/cd_catalog.xml
https://www.runoob.com/try/xml/books.xml

1. 效果图

cd_catalog.xml原始文件如下:
在这里插入图片描述

解析cd_catalog.xml后按顺序打印如下:
在这里插入图片描述

book.xml原始文件如下:
在这里插入图片描述

解析books.xml效果图如下:
在这里插入图片描述

2. 源代码

# parseXml.py
# 解析cd_catalog.xml,book.xmlfrom xml.etree import ElementTree as ETdef readBookXml(file):# 直接读取xml文件,形成ElementTree结构tree = ET.parse(file)root = tree.getroot()  # 获取根元素for i, child in enumerate(root):  # 遍历子元素print(i, child.tag, child.text, child.attrib)  # 输出子元素的标签和属性值for j in range(len(child)):print('\t', j, child[j].tag, child[j].text, child[j].attrib)  # 输出子元素中的标签及属性值# 获取XML文档的根元素root = tree.getroot()# 查找具有指定标签的第一个子元素element = root.find('book')# 查找具有指定标签的所有子元素books = root.findall('book')print(len(books))for i, book in enumerate(books):print(i, book.tag, book.text, book.attrib)  # 输出子元素的标签和属性值for j in range(len(book)):print('\t', j, book[j].tag, book[j].text, book[j].attrib)  # 输出子元素中的标签及属性值def readCatalogXml(file):# 直接读取xml文件,形成ElementTree结构tree = ET.parse(file)root = tree.getroot()  # 获取根元素for i, child in enumerate(root):  # 遍历子元素print(i, child.tag, child.text, child.attrib)  # 输出子元素的标签和属性值for j in range(len(child)):print('\t', j, child[j].tag, child[j].text, child[j].attrib)  # 输出子元素中的标签及属性值# 获取XML文档的根元素root = tree.getroot()# 查找具有指定标签的第一个子元素element = root.find('CD')# 查找具有指定标签的所有子元素books = root.findall('CD')print(len(books))for i, book in enumerate(books):print(i, book.tag)  # 输出子元素的标签for j in range(len(book)):print('\t', j, book[j].tag, book[j].text)  # 输出子元素中的标签及属性值file = 'test/books.xml'
readBookXml(file)file = 'test/cd_catalog.xml'
readCatalogXml(file)

参考

  • https://blog.csdn.net/qq233325332/article/details/130799948
  • https://blog.csdn.net/weixin_43856625/article/details/134775566
http://www.lryc.cn/news/318423.html

相关文章:

  • CDA-LevelⅡ【考题整理-带答案】
  • 20240304 json可以包含复杂数组(数组里面套数组)
  • 算法50:动态规划专练(力扣514题:自由之路-----4种写法)
  • 重学SpringBoot3-集成Thymeleaf
  • 【数据可视化】Echarts最常用图表
  • flink:通过table api把文件中读取的数据写入MySQL
  • 【Java 多线程 哈希表】 HashTable, HashMap, ConcurrentHashMap 之间的区别
  • 有趣之matlab-烟花
  • C语言指针与数组(不适合初学者版):一篇文章带你深入了解指针与数组!
  • springboot Mongo大数据查询优化方案
  • Ollama管理本地开源大模型,用Open WebUI访问Ollama接口
  • Linux--基本知识入门
  • 基于springboot+vue实现的大学计算机课程管理平台的设计与实现(全套资料)
  • LeetCode2115. 从给定原材料中找到所有可以做出的菜
  • 项目性能优化—性能优化的指标、目标
  • 蓝桥杯刷题(三)
  • 20240312-算法复习打卡day21||● 530.二叉搜索树的最小绝对差 ● 501.二叉搜索树中的众数 ● 236. 二叉树的最近公共祖先
  • 今天我们来学习一下关于MySQL数据库
  • 长期护理保险可改善老年人心理健康 | CHARLS CLHLS CFPS 公共数据库周报(3.6)...
  • 49、C++/友元、常成员函数和常对象、运算符重载学习20240314
  • SQL Server错误:15404
  • Halcon文件操作
  • 【测试知识】业务面试问答突击版1
  • 使用el-row及el-col页面缩放时出现空行解决方案
  • java中几种对象存储(文件存储)中间件的介绍
  • 网络工程师——2024自学
  • SwiftUI的Picker
  • 物联网技术助力智慧城市转型升级:智能、高效、可持续
  • YOLOv7_pose-Openvino和ONNXRuntime推理【CPU】
  • 通过ACPI检测沙箱-反虚拟机