当前位置: 首页 > news >正文

爬虫神级解析工具之XPath:用法详解及实战

一、XPATH是什么

Xpath最初被设计用来搜寻XML文档,但它同样适用于HTML文档的搜索。通过简洁明了的路径选择表达式,它提供了强大的选择功能;同时得益于其内置的丰富的函数,它可以匹配和处理字符串、数值、时间等数据格式,几乎所有节点我们都可以通过Xpath来定位。

在Python中,lxml库为我们提供了完整的Xpath选择器,今天我们就用它来学习Xpath的使用,我们的目标是用最少的时间来掌握使用频率最高的核心技能,而这些核心技能基本上可以满足我们网页抓取的需求。

毕竟我们不是单独在使用Xpath,在Python中,很多数据处理和匹配的工作我们可以用更加“Python”、更加通用的方法来解决,没必要为了5%的使用而花费数倍的时间。

我们都知道,在很多领域里,从0到80分只需要花费很少的时间,从80分到95分则可能会花费上一阶段的数倍时间,至于从95分往上,每一分的提高都可能需要巨大的时间成本。我们需要权衡最初的学习诉求、收获和时间成本的匹配度等,以判断我们要到达哪一个水平,并规划出对应的学习方案。

我们学习爬虫的目的并不是成为一个精通网络爬虫的大师,而是将它作为一个工具,用来帮助我更好地进行数据挖掘分析的工作。因此,在学习过程中会尽可能地功力,力求以最少的时间掌握最核心的技能。Xpath简直是针对这种学习思路设计的,因为它太容易上手了,核心功能只需要十分钟就可以熟练掌握,而那多达上百的函数对我们来说可能一辈子都用不到几回。

二、Xpath常用规则

下表是最常用的Xpath规则,绝大多数的Xpath表达式都由它们构成。

http://www.lryc.cn/news/9915.html

相关文章:

  • Markdown编辑器
  • 数据结构<堆>
  • Linux下Socket编程利用多进程实现一台服务器与多台客户端并发通信
  • 【MySQL】数据库基础
  • Microsoft Office 2021 / 2019 Direct Download Links
  • XX 系统oracle RAC+ADG 数据库高可用容灾演练记录
  • JSP与Servlet
  • C++之迭代器
  • 2023-02-16:干活小计
  • Linux上安装LaTeX
  • webpack -- 无法将“webpack”项识别为 cmdlet
  • 对齐与非对齐访问
  • 基于感知动作循环的层次推理用于视觉问答
  • python中的.nc文件处理 | 05 NetCDF数据的进一步分析
  • GGX发布全新路线图,揭示具备 Layer0 特性且可编程的跨链基建生态
  • taro+vue3 搭建一套框架,适用于微信小程序和H5
  • C++:模板初阶(泛型编程、函数模板、类模板)
  • 把数组排成最小的数 AcWing(JAVA)
  • 4.3 PBR
  • hmac — 加密消息签名和验证
  • AWS攻略——使用ACL限制访问
  • 【已解决】关于 luckysheet 设置纯文本,解决日期格式回显错误的办法
  • Jackson
  • 字节软件测试岗:惨不忍睹的三面,幸好做足了准备,月薪19k,已拿offer
  • vue使用axios发送post请求携带json body参数,后端使用@RequestBody进行接收
  • 【python百炼成魔】python之列表详解
  • 如何学习 Web3
  • 大数据框架之Hadoop:MapReduce(一)MapReduce概述
  • 一文搞定python语法进阶
  • 2019蓝桥杯真题数列求值(填空题) C语言/C++