当前位置: 首页 > news >正文

Python网络爬虫之Selenium详解

1、什么是selenium?

  • Selenium是一个用于Web应用程序测试的工具。
  • Selenium 测试直接运行在浏览器中,就像真正的用户在操作一样。
  • 支持通过各种driver(FirfoxDriver,IternetExplorerDriver,OperaDriver,ChromeDriver)驱动真实浏览器完成测试。
  • selenium也是支持无界面浏览器操作的。

2、为什么使用selenium?

模拟浏览器功能,自动执行网页中的js代码,实现动态加载

3、如何安装selenium?

需要下载驱动,咱们以谷歌浏览器为例下载谷歌驱动

①、操作谷歌浏览器驱动下载地址

http://chromedriver.storage.googleapis.com/index.html

注意:驱动的版本需要和谷歌浏览器版本一致

查看谷歌浏览器版本:在谷歌浏览器中输入 ”chrome://version/“

②、安装

pip install selenium

4、驱动的使用方式

4.1、PATH 环境变量

将下载后的驱动放到环境变量中,在命令行输入  ”chromedriver“ 如果出现一下界面说明安装成功

安装成功后代码中无需指定驱动位置:

from selenium import webdriverdriver = webdriver.Chromeurl = "https://www.baidu.com"driver.get(url)

4.2、在编写代码时指定驱动位置

from selenium import webdriver
from selenium.webdriver.chrome.service import Service
# 指定驱动位置
service = Service(executable_path="/path/to/chromedriver")
driver = webdriver.Chrome(service=service)

 

5、Python操作selenium实例

实例环境

os:Mac

谷歌版本:111.0.5563.110

驱动版本:111.0.5563.64

selenium:4.8.3

5.1、基础

代码:注意执行完会一闪而过,是因为我们后续没有代码,自动测试结束

# 导入包
from selenium import webdriver# 创建谷歌浏览器驱动
driver = webdriver.Chrome()# 定义要浏览的网页url
url = "https://www.baidu.com"# 在浏览器中执行操作
driver.get(url)# 导入time 包 让线程睡眠4秒,可以更好的看到效果
import time 
time.sleep(4)

 

5.2、获取浏览器相关信息


# 打开网站
driver.get(url)# 获取当前浏览器标题
title = driver.titleprint(title)# 获取当前浏览的url
cur_url = driver.current_urlprint(cur_url)# 后退:按下浏览器的后退按钮
driver.back()# 前进:按下浏览器的前进键
driver.forward()# 刷新:刷新当前页面
driver.refresh()

5.3、查找元素

先看下百度首页输入框和百度一下按钮的ID

 知道了这两个输入框的ID后,我们的需求为:自动在输入框中输入”ChatGPT“,并且自动点击百度一下进行搜索,代码如下:

# 导入包
from selenium import webdriver
from selenium.webdriver.common.by import By
import time# 创建谷歌浏览器驱动
driver = webdriver.Chrome()# 定义要浏览的网页url
url = "https://www.baidu.com"# 打开网站
driver.get(url)# 获取输入框
kw = driver.find_element(By.ID, "kw")
# 将成龙自动输入到输入框中
kw.send_keys("ChatGPT")# 获取百度一下按钮
su = driver.find_element(By.ID, "su")
# 自动点击百度一下按钮
su.click()# 睡眠4秒看效果
time.sleep(4)

 具体效果大家就拷贝代码自行查看了。

代码中有用到通过ID获取input元素,然后通过send_keys 自动填充输入框,最后通过click自动触发点击事件。

定位元素所有策略如下:注意记得导入包

策略描述
By.ID通过HTML元素ID获取元素
By.NAME通过HTML元素属性name值获取元素
By.TAG_NAME通过HTML元素名称获取元素
By.CLASS_NAME通过元素class属性值获取元素        
By.CSS_SELECTOR通过css选择器获取元素
By.XPATH通过Xpath语法获取元素
By.LINK_TEXT通过连接文本值获取元素
By.PARTIAL_LINK_TEXT通过模糊查询文本值获取元素

我们通过一下代码片段实现以上每种策略实例演示

<ol id="vegetables"><li class="potatoes">…<li class="onions">…<li class="tomatoes"><span>Tomato is a Vegetable</span>…
</ol>
<ul id="fruits"><li class="bananas">…<li class="apples">…<li class="tomatoes"><span>Tomato is a Fruit</span>…
</ul>
<input type="text" name="wd"/>
<input type="submit" value="百度一下" id="su" class="btn self-btn bg s_btn">
<a href="https://blog.csdn.net/u011837804">个人中心</p>

代码实例: 

fruits = driver.find_element(By.ID, "fruits")
fruit = fruits.find_element(By.CLASS_NAME,"tomatoes")
fruit = driver.find_element(By.CSS_SELECTOR,"#fruits .tomatoes")
plants = driver.find_elements(By.TAG_NAME, "li")
wd = driver.find_element(By.NAME, "wd")
wd = driver.find_element(By.XPATH, "//input[@name='wd']")
a = driver.find_element(By.LINK_TEXT, "个人中心")
a = driver.find_element(By.PARTIAL_LINK_TEXT, "个人")

5.4、操作元素

直接上代码:


# 获取输入框
kw = driver.find_element(By.ID, "kw")# 填充输入框
kw.send_keys("成龙")# 清除输入框
kw.clear()

5.5、获取元素信息

# 获取元素是否显示 返回 布尔值
is_email_visible = driver.find_element(By.NAME, "email_input").is_displayed()# 获取元素是否启用 返回 布尔值
value = driver.find_element(By.NAME, 'btnK').is_enabled()# 针对checkbox返回是否被选中
value = driver.find_element(By.CSS_SELECTOR, "input[type='checkbox']:first-of-type").is_selected()# 获取元素标签名称
attr = driver.find_element(By.CSS_SELECTOR, "h1").tag_name# 获取元素的位置信息#元素左上角的X轴位置#元素左上角的y轴位置#元素的高度#元素的宽度
res = driver.find_element(By.CSS_SELECTOR, "h1").rect# 获取元素CSS值
cssValue = driver.find_element(By.LINK_TEXT, "More information...").value_of_css_property('color')# 获取文本内容
text = driver.find_element(By.CSS_SELECTOR, "h1").text# 获取元素属性值
email_txt = driver.find_element(By.NAME, "email_input")
value_info = email_txt.get_attribute("value")

http://www.lryc.cn/news/45193.html

相关文章:

  • 中睿天下受邀出席电促会第五次会员代表大会
  • Chat GPT:软件测试人员的危机?
  • 【Redis】高可用:Redis的主从复制是怎么实现的?
  • WLAN速度突然变慢
  • GDAL python教程基础篇(12)GDAL和 Pillow 的互操作
  • 快速学习java路线建议
  • 【MySQL】深入浅出主从复制数据同步原理
  • Redis持久化和高可用
  • 【数据结构】第六站:栈和队列
  • python matplotlib 绘制训练曲线 综合示例——平滑处理、图题设置、图例设置、字体大小、线条样式、颜色设置
  • vue-element-plus-admin整合后端实战——实现系统登录、缓存用户数据、实现动态路由
  • Shader Graph2-PBR介绍之表面属性(图解)
  • Java多线程编程,Thread类的基本用法讲解
  • TIA博途Wincc_多路复用变量的使用方法示例(实现多台相同设备参数的画面精简)
  • 关于console你不知道的那些事
  • Java设计模式-责任链模式
  • 顺序表设计循环队列
  • UEFI 基础教程 (十四) - 设置默认启动项为UEFI Shell
  • python编程:判断一个数是否是超级素数
  • 雷迪RD8200管线探测仪参数/管线仪使用方法/管线仪说明书
  • 会话共享保存到redis
  • python 曲线平滑处理——方法总结(Savitzky-Golay 滤波器、make_interp_spline插值法和convolve滑动平均滤波)
  • 小驰私房菜_10_camx Otp Dump
  • priority_queue(堆)干货归纳+用法示例
  • miniprogram-to-uniapp使用指南(各种小程序项目转换为uni-app项目)
  • BZOJ2720: [Violet 5]列队春游 【概率与期望】
  • 脉诊之脉象——平脉,常见病脉,七绝脉
  • 第05章_存储引擎
  • 【新2023Q2押题JAVA】华为OD机试 - 挑选字符串
  • 职场「OKR」,魔幻又内卷