当前位置: 首页 > news >正文

【爬虫】Xpath和CSS信息提取的方法异同点

类似点:

  1. Xpath与css都有web页面定位元素的功能
  2. Xpath与css结构类似

区别:

1. Xpath比较强大,而css选择器在性能上更优,运行速度更快,语法更简洁

  • CSS再chrome,火狐查找速度快,效率高,xpath在IE游览器相对慢些(IE游 览器无论是css还是xpath都比谷歌,火狐要慢(IE没有自己的xpath解析器 (Parser)))
  • 当查找元素比较简单,用css没错,如果复杂,用xpath比较好

2. CSS不支持文本搜索,xpath支持文本搜索text()

3. Xpath调用extract()获得对象元素文本列表,使用extract_first()获取列表第一个元素值;

4. 直接子元素:Xpath中的直接子元素使用”/”定义的,而在css中,它是使用”>”定义的;

        Xpath://div/input

        Css:div > input

5. 后代元素:如果一个元素在另一个元素的内部(子孙元素),则它在xpath中使用”//”定义,而在css中仅使用空格定义;

        Xpath://div//input

        Css:div input

6. ID定位:XPATH中的元素id使用以下内容定义:"[@id=‘kw’]",而在CSS中使用:"#kw";

        Xpath://input[@id=’kw’]

        Css:input # kw

7. Class定位:对于class属性,xpath类似id,而css中用一个点表示(xpath可用点连续调用);

        Xpath://input[@class=”s_ipt”]

        Css:input.s_ipt

8. 哥哥元素:preceding-sibling 前兄弟(页面中位于同一父节点内的上一个相邻元素);

        Xpath://a[@name=’tj_baike’]/preceding-sibling::a

        Css:无法实现

9. 弟弟元素:following-sibling 继兄弟(这对于表单元素非常有用,即页面中位于同一父节点内的下一个相邻元素);

        Xpath://input[@class=”s_ipt”]/following-sibling::a

        Css:input[class=”s_ipt”] + a  (~所有同级别的兄弟结点)

10. 父结点元素:页面中位于一个结点的上级元素;

        Xpath://input/parent

        Css:无法实现

11. 属性值:我们可以根据属性值定位元素;

        Xpath://input[@name=’username’]

        Css:input[name=’username’]

12. 多个属性值:我们甚至可以通过多个属性来定位元素;

        Xpath://input[@name=’rsv_spt’ and @value=”1”]

        Css:input[name=’login’][type=’submit’]

13. 选择一个元素的第n个结点

        Xpath:[position()=n]

        Css:无法实现

14. 第一个子元素;

        Xpth://div[@id=’u1’]/a[1]     (extract_first())

        Css:div # u1 a:first-child

15. 最后一个子元素;

        Xpath://div[@id=’u1’]/a[last()]

        Css:div # u1 a:last-child

16. 第二个子元素;

        Xpth://div[@id=’u1’]/a[2]                   

        Css:div # u1 a:nth-child(2)

17. 模糊匹配:selenium中允许使用^=,$=或*=进行部分字符串匹配

^=匹配前缀

        Xpth:input[starts-with(@id,’user’)]

        Css:input[id^=’name’]

$=匹配后缀

        Xpath:input[ends-with(@id,’name’)]

        Css:input[id$=’name’]

*=匹配包含

        Xpth:input[contains(@id,’sernam’)]

        Css:input[id*=sernam]

http://www.lryc.cn/news/93098.html

相关文章:

  • 数字IC前端学习笔记:FIFO的Verilog实现(二)
  • 2.2 搭建Spark开发环境
  • webpack指定输出资源的路径和名称
  • Spring事务四
  • 项目管理专业人员能力评价等级证书(CSPM)的级别介绍
  • 设计模式-创建型模式(单例、工厂、建造、原型)
  • 用饭店来形象比喻线程池的工作原理
  • GO学习笔记之表达式
  • 005Mybatis返回值(ResultMap 一对多,多对多)
  • 把玩数据在内存中的存储
  • Nginx运行原理与基本配置文件讲解
  • openGauss5 企业版之SQL语法和数据结构
  • TClientDataSet 模拟 EXCEL表
  • Hazel游戏引擎(012)GLFW窗口事件
  • Nenu算法复习第六章
  • 知识付费社群:最好的知识传播方式
  • 局域网内不同网段的设备互相连接设置
  • LVS+Keepalived 群集
  • windows系统cmd命令设置别名,并添加到环境变量
  • 智能学习 | MATLAB实现GWO-SVM多输入单输出回归预测(灰狼算法优化支持向量机)
  • java方法
  • LabVIEW与Space Wire配合开发
  • 开始使用chat-gpt4
  • 算法之贪心算法
  • Maven 基础
  • 算法刷题-哈希表-两数之和
  • kotlin学习(一)基本概念、数据对象类型、控制流程、空值检验、类与接口
  • 【Linux】Docker部署镜像环境 (持续更新ing)
  • Jtti:如何打开云服务器的8082端口
  • 有关 string 类的练习(下)