当前位置: 首页 > news >正文

爬虫-获取数据xpath

  1. 安装lxml

    pip3 install lxml
    
  2. 基本用法

    import reauests
    from lxml import etree
    url = 'xxx'
    res = reuests.get(url).text
    html = etree.HTML(res)
    # 获取所有div标签
    xpath = '//div'
    print(html.xpath(xpath))
    #获取id=xx的div标签下的class=yy的span标签
    xpath = '//div[@id="xx"]//span[@class="yy"]'
    print(html.xpath(xpath))
    #获取文本
    xpath = '//div[@id="xx"]//span[@class="yy"]//text()'
    print(html.xpath(xpath))
    #获取属性 href
    xpath = '//div[@id="xx"]//span[@class="yy"]//@href'
    print(html.xpath
http://www.lryc.cn/news/209850.html

相关文章:

  • SpringBoot中使用JdbcTemplate访问Oracle数据库
  • 【Linux】权限完结
  • 计算机网络-应用层(3)
  • 虎去兔来(C++)
  • docker基础镜像定制
  • 解决git action定时任务执行失败的方法
  • Node编写重置用户密码接口
  • Day13力扣打卡
  • 独立开发者知识贴
  • 软考系列(系统架构师)- 2009年系统架构师软考案例分析考点
  • C语言每日一题(21)删除排序数组中的重复项
  • 如何快速解决d3dcompiler_43.dll缺失问题?五种方法快速解决
  • mongodb数据迁移的方法
  • Spring MVC 中文文档
  • RedissonCach的源码流程
  • spring-基于注解管理bean
  • 数据挖掘(7.1)--数据仓库
  • Vue3问题:如何实现密码加密登录?前后端!
  • 【爬虫】python打包可执行程序(ui界面制作完成后)
  • 取Dataset子集(pytorch)
  • 如何选择消息队列
  • 读取mysql数据库表结构生成接口文档
  • 【MySQL索引与优化篇】InnoDB数据存储结构
  • Go学习第十二章——Go反射与TCP编程
  • uniapp编译微信小程序富文本rich-text的图片样式不生效原因
  • Django实战项目-学习任务系统-任务管理
  • ubuntu18.04设置开机自动启动脚本(以自动启动odoo命令行为例讲解)
  • golang工程——grpc-gateway 转发http header中自定义字段到grpc上下文元数据
  • CPU眼里的C/C++: 1.3 汇编级单步调试函数执行过程
  • 数据结构时间复杂度(补充)和空间复杂度