当前位置: 首页 > news >正文

Python爬虫02

在这里插入图片描述
xml 和html 区别
在这里插入图片描述

jsonpath模块

  • 场景

    多层嵌套的复杂字典直接提取数据

  • 安装

pip install jsonpath
  • 使用
from jsonpath import jsonpathret = jsonpath(dict, 'jaonpath语法规则字符串')
  • 语法规则


eg:
在这里插入图片描述

lxml模块&xpath语法

  • 谷歌浏览器 xpath helper 插件
作用对当前页面测试xpath语法规则
  • xpath 语法

1.基础语法

在这里插入图片描述

/html/head/title 绝对路径
/html//title.    相对路径
//title          相对于整个html文档
//title/.        当前节点
//title/./../..  父节点           

2.选取特定节点的语法

可以根据标签的属性值,下标等来获取特定的节点

在这里插入图片描述

节点修饰语法1.通过索引修饰节点/html/body/div[3]/div/div[1]/div/html/body/div[3]/div/div[1]/div[3]/html/body/div[3]/div/div[1]/div[last()].     选中最后一个/html/body/div[3]/div/div[1]/div[last()-1].   选中倒数第二个/html/body/div[3]/div/div[1]/div[position() >=10].   范围选择2.通过属性值修饰节点//div[@id='content-left']/div/@id出现在[]中的@是使用标签属性名和属性值修饰节点3.通过子节点的值修饰节点//span[i>2000]//div[span[2]>=9.4]4.通过包含修饰//div[contains(@id, "qiushi_tag_")]//span[contains(text(), "一页")](xpath中,第一个元素的位置是1

3.选取未知节点的语法
在这里插入图片描述

lxml使用

  • 安装
pip install lxml
  • 使用
1.导入lxml的etree库
from lxml import etree
2.利用etree.HTML,将html字符串(bytes|str)转化为Element对象,Element对象具有xpath的方法,返回结果的列表
html = etree.HTML(text)
ret_list = html.xpath("xpath语法规则字符串")
3.xpath方法返回列表的三种情况
返回空列表
返回有字符串构成的列表
返回由Element对象构成的列表
http://www.lryc.cn/news/430924.html

相关文章:

  • HTTP/3
  • MySQL 字符串操作详解和案例示范
  • 全双工语音交互
  • nginx中如何设置gzip
  • 借老系统重构机会我写了个groovy规则引擎
  • C#利用ffmpeg借助NVIDIA GPU实现实时RTSP硬解码+硬编码录制MP4
  • 第4章 汇编语言和汇编软件
  • 网络安全在2024好入行吗?
  • C++练习
  • 3. GIS后端工程师岗位职责、技术要求和常见面试题
  • Linux学习笔记(4)----Debian压力测试方法
  • xml详解
  • C140 杨辉三角
  • C++字符串操作中的陷阱
  • 最值求解 | 管理类联考数学专项
  • C++_继承详解
  • 区块链开发解决方案有哪些
  • Express与SQLite集成教程:轻松实现数据库操作
  • Transforms的常见用法
  • js 创建 React 项目
  • WPF 中常用 `Transform` 类的介绍、使用示例和适用场景
  • ElasticSearch-DSL
  • Learn ComputeShader 07 Post Processing
  • 初始QT!
  • 全国大学生数据建模比赛——深度学习
  • Qt技巧(二)-滑动界面,轮询控件,循环操作控件
  • 003——单链表
  • XILINX平台下LINUX DMA驱动调研
  • Oracle数据库安装和配置指南
  • 制造业中工艺路线(工序)与产线(工作中心)关系