当前位置: 首页 > news >正文

使用selenium实现对页面元素的抓取

一、背景介绍

工作中有个需求是需要对某个页面进行监控,但由于要监控页面数据是异步加载的,因此很难从状态码和返回结果层面进行校验。于是乎想到了通过判断页面元素是否存在且显示内容是否正确来达到此目标。调研了一下发现selenium可以实现对这种动态数据加载页面的抓取

二、数据异步加载页面的监控方式

备注:我采用的是方法一

  • 方法一:使用selenium对异步加载后的页面元素进行抓取
  • 方法二:使用requests库直接对异步加载的接口进行请求

二、环境准备

注意:浏览器版本与对应驱动版本必须一致

  • Chrome浏览器版本:Chromium 77.0.3844.0
  • chromedriver版本:77.0.3844.0
  • selenium版本:4.9.1
  • Python3

三、具体代码

from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from webdriver_manager.chrome import ChromeDriverManagerurl = "http://mock.test.com"
chrome_options = webdriver.ChromeOptions()   # 貌似从selenium 4.6以上就不用明确指定驱动版本啦
chrome_options.add_argument("--no-sandbox")
chrome_options.add_argument("--disable-dev-shm-usage")
chrome_options.add_argument('--disable-extensions')
chrome_options.add_argument("--headless")
chrome_options.add_experimental_option("detach", True)driver = webdriver.Chrome(options=chrome_options)
driver.get(url)   # 本行用于访问指定的地址# 等待指定元素出现,最多等待10秒
element = WebDriverWait(driver, 10).until(EC.presence_of_element_located((By.XPATH, '//*[@id="xxx"]/div[1]/h2'))
)title = driver.find_element(By.XPATH, '//*[@id="xxx"]/div[1]/h2').text
productname = driver.find_element(By.XPATH, '//*[@id="xxx"]/div[2]/div[1]/ul/li/span[1]').textprint("title:", title)
print("product name:", productname)assert title == "是标题啊"
assert productname == "是名字呀"# 关闭浏览器
driver.quit()
http://www.lryc.cn/news/149145.html

相关文章:

  • 大数据课程K12——Spark的MLlib概述
  • 流程制造智能工厂总体架构及建设路线规划方案PPT
  • 网络有源号角(50W-100W)社区小区广播 工地语音播报,隧道广播,钢铁广播广播系统
  • 【Kali Linux高级渗透测试】深入剖析Kali Linux:高级渗透测试技术与实践
  • DHCP中继实验
  • C++进阶之多态
  • QtCreator中三种不同编译版本 debug、release、profile 的区别
  • golang中map赋值
  • myspl使用指南
  • 【深度学习_TensorFlow】过拟合
  • uniapp授权小程序隐私弹窗效果demo(整理)
  • c++学习之string实现
  • kubevirt虚机创建svc通过NodePort的方式暴露端口
  • Elasticsearch终端命令行用法大全
  • nacos版本升级注意事项
  • JavaScript作用域与作用域链
  • MQTT异常掉线原因
  • 重新理解百度智能云:写在大模型开放后的24小时
  • Stable Diffusion 提示词技巧
  • VS2019编译curl库
  • yolov5自定义模型训练三
  • 服务器中了mkp勒索病毒该怎么办?勒索病毒解密,数据恢复
  • Docker环境搭建Prometheus实验环境
  • Python Qt学习(七)Listview
  • 哈希表HashMap(基于vector和list)
  • go中的函数
  • 小试 InsCode AI 创作助手
  • 粉丝经验分享:13:00 开始的面试,13:06 就结束了,问题真是变态
  • SASS的@规则
  • 【C++初阶】模拟实现优先级队列priority_queue