当前位置: 首页 > news >正文

【Python第三方库】lxml 解析器和xpath路径语言

1.lxml是做什么的

        是xml/html的解析器,主要是用来解析和提取html/xml数据

2.lxml语法
  • 使用etree.HTML(html字符串),将字符串转换为Element对象
  • 通过使用Element对象.xpath(语法)提取信息,返回的是一个列表的内存地址,需要通过使用索引获取信息
​​​​​​​​​​​​​​3.Xpath是什么

        在HTML/xml文档中查找信息语言,使用路径表达式来选取html/xml文档中的节点/节点集

4.常用节点选取工具
  • 谷歌浏览器里面使用XPath Helper
​​​​​​​5.XPath 语法 
  • 节点选择语法​​​​​​​
    • 节点分类概念举例
      /从根节点取/html/head/div 获取的html节点下的head节点下所有的div节点内容信息
      //从匹配选择的当前节点选择文档中的节点,不考虑节点位置//div 获取全html文档内的所有div节点的内容信息,返回列表
      .选取当前节点
      ..选取当前节点的父节点
      @选取指定节点内的属性

      //div[@class="map"] 获取全文档下的div节点中属性class的值为map的节点内容信息,返回的是列表

      //img[@id="s_log"]/@scid获取img标签的id为s_log的scid

  • 节点修饰语法

http://www.lryc.cn/news/331964.html

相关文章:

  • Java(Lambda、集合)、题解
  • Transformer学习: Transformer小模块学习--位置编码,多头自注意力,掩码矩阵
  • easyexcel 动态列导出
  • flink源码编译-job提交
  • Mysql密码修改问题
  • 建独立站,对FP商家有什么好处?
  • 使用Postman进行websocket接口测试
  • Android音视频开发 - MediaMetadataRetriever 相关
  • 注解(Annotation)
  • 蓝桥杯:七步诗 ← bfs
  • Vue 如何快速上手
  • Vue3:组件间通信-provide和inject实现祖先组件与后代组件间直接通信
  • 微信小程序——小程序和页面生命周期详解
  • android studio中添加module依赖
  • 【.NET全栈】.NET全栈学习路线
  • 代码随想录阅读笔记-二叉树【二叉搜索树中的搜索】
  • 1、初识drf
  • 速盾:cdn高防御服务器租用有哪些好处
  • 【跟小嘉学 Linux 系统架构与开发】四、文件和目录的权限
  • ubuntu18.04图形界面卡死,鼠标键盘失灵, 通过MAC共享网络给Ubuntu解决!
  • ESG认证(ESG=环境、社会和治理 Environmental, Social, and Governance)
  • Cesium Viewer 类学习
  • 第十四届省赛大学B组(C/C++)子串简写
  • 深入浅出 -- 系统架构之微服务架构
  • YoloV8改进策略:下采样改进|自研下采样模块(独家改进)|疯狂涨点|附结构图
  • Python从0到100(十):Python集合介绍及运用
  • 实用技巧:如何取消app的截屏禁用
  • 【氮化镓】GaN SP-HEMT的栅极可靠性
  • Linux基础和进阶用法
  • Linux运维-SHELL编程之正则表达式与流编辑处理器