当前位置: 首页 > news >正文

Python Selenium:Web自动化测试与爬虫开发

Python Selenium:Web自动化测试与爬虫开发

      • Python Selenium:Web自动化测试与爬虫开发
        • 安装Selenium
        • 设置WebDriver
        • 基础示例
        • 页面元素交互
        • 处理JavaScript和Cookies
        • 浏览器控制
        • 屏幕截图
        • Headless Mode
        • 结束会话
        • 错误处理与调试

***本文由AI辅助生成***

Python Selenium:Web自动化测试与爬虫开发

Selenium是一个强大的工具套件,主要用于自动化Web浏览器操作。它支持多种编程语言,包括Python,广泛应用于自动化Web应用测试、网页抓取等领域。Selenium WebDriver 可以驱动无界面的浏览器(Headless Browser)或真实浏览器进行操作。

安装Selenium

首先,你需要安装Selenium。如果你使用的是Python,可以在命令行中输入以下命令进行安装:

pip install selenium
设置WebDriver

为了使用Selenium,你需要对应所选浏览器的Driver。例如,如果你选择Chrome,则需要下载 ChromeDriver,并将其路径添加到系统的 PATH 环境变量中,或者直接在Python脚本中指定路径。

基础示例

下面是一个使用Selenium启动Google Chrome并访问百度的Python示例:

from selenium import webdriverdriver = webdriver.Chrome()  # 或 webdriver.Firefox(), 根据你的浏览器选择
driver.get('http://www.baidu.com')
print(driver.title)
driver.quit()
页面元素交互

假设我们要在一个表单中填写用户名和密码并提交:

from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as ECusername = driver.find_element(By.ID, "username")
password = driver.find_element(By.NAME, "password")username.send_keys("your_username")
password.send_keys("your_password")login_button = driver.find_element(By.XPATH, "//button[@type='submit']")
login_button.click()# 显示等待直到元素可见
element = WebDriverWait(driver, 10).until(EC.presence_of_element_located((By.ID, "some_id"))
)
处理JavaScript和Cookies

Selenium可以执行JavaScript,这对于某些动态加载的内容特别有用:

driver.execute_script("window.scrollTo(0, document.body.scrollHeight);")  # 滚动到底部cookies = driver.get_cookies()
for cookie in cookies:print(cookie)
浏览器控制

除了模拟登录和点击按钮外,还可以控制浏览器前进、后退、刷新等:

driver.back()
driver.forward()
driver.refresh()
屏幕截图

保存网页快照:

driver.save_screenshot('screenshot.png')
Headless Mode

在不开启图形界面的情况下运行Selenium:

options = webdriver.ChromeOptions()
options.add_argument('--headless')
driver = webdriver.Chrome(options=options)
结束会话

不要忘记结束webdriver会话:

driver.quit()
错误处理与调试

在编写Selenium脚本时可能会遇到网络超时等问题,适当增加错误处理逻辑:

try:element = WebDriverWait(driver, 10).until(EC.presence_of_element_located((By.ID, "myDynamicElement")))
finally:driver.quit()

Selenium提供了丰富的API和功能,结合Python的强大编程能力,可以实现复杂的Web自动化任务,如自动填写表单、截屏、上传下载文件、模拟人类行为等。无论是用于自动化测试还是数据抓取,Selenium都是一个不可或缺的工具。

http://www.lryc.cn/news/489623.html

相关文章:

  • Java-07 深入浅出 MyBatis - 一对多模型 SqlMapConfig 与 Mapper 详细讲解测试
  • 用CAXA CAD电子图板导入图框、标题栏并导出pdf的方法
  • 深入了解 Linux htop 命令:功能、用法与示例
  • JDK1.8新增特性
  • 环境背景文本到语音转换
  • 后端数据增删改查基于Springboot+mybatis mysql 时间根据当时时间自动填充,数据库连接查询不一致,mysql数据库连接不好用
  • 《Python编程实训快速上手》第九天--调试技巧
  • html5复习一
  • SSL/TLS,SSL,TLS分别是什么
  • css iframe标签使用
  • API的妙用
  • HTML5超酷响应式视频背景动画特效(六种风格,附源码)
  • Spire.PDF for .NET【页面设置】演示:打开 PDF 时自动显示书签或缩略图
  • 算法中常用到的数学知识:埃拉托色尼筛法(获取质数)、欧几里得算法(求两个数最大公因数)
  • 实战OpenCV之人脸识别
  • 图像预处理之图像滤波
  • 【通俗理解】隐变量的变分分布探索——从公式到应用
  • PyTorch 分布式并行计算
  • [cg] vulkan external_memory
  • 如何使用Python代码实现给GPU预加热
  • 硬件知识 cadence16.6 原理图输出为pdf 网络名下划线偏移 (ORCAD)
  • ffmpeg视频滤镜:提取缩略图-framestep
  • RecyclerView详解——(四)缓存复用机制
  • 进程 系统调用 中断
  • 演讲回顾丨杭州悦数 CTO 叶小萌:图数据库发展新航向——拥抱 GQL,融合 HTAP,携手 AI
  • Java安全—JNDI注入RMI服务LDAP服务JDK绕过
  • C++:设计模式-单例模式
  • Softing工业将OPC UA信息建模集成到边缘应用和安全集成服务器中
  • WPF中如何让Textbox显示为一条直线
  • VSCode汉化教程【简洁易懂】