当前位置: 首页 > news >正文

python爬虫之selenium自动化操作

python爬虫之selenium自动化操作

需求:操作淘宝去掉弹窗广告搜索物品后进入百度回退又前进

selenium模块的基本使用

问题:selenium模块和爬虫之间具有怎样的关联?
1、便捷的获取网站中动态加载的数据
2、便捷实现模拟登录
什么是selenium模块?
1、基于浏览器自动化的一个模块

selenium使用流程:

1、环境安装:pip install selenium
2、下载一个浏览器的驱动程序(edge浏览器为例)
(1)下载路径:edge浏览器驱动
(2)驱动程序和浏览器的映射关系:查看浏览器版本,上面链接找到相对应版本的驱动后下载到爬虫程序所在文件路径中。
在这里插入图片描述
在这里插入图片描述
3、实例化一个浏览器对象
4、编写基于浏览器自动化的操作代码
(1)发起请求:get(url)
(2)标签定位:find系列的方法
(3)标签交互:send_keys(‘xxx’)
(4)执行js程序:excute_script(‘jsCode’)
(5)前进,后退:back(),forward()
(6)关闭浏览器:quit()
实现代码如下:

from selenium import webdriver
from time import sleep
from selenium.webdriver.common.by import By
# selenium 4版本必须要设置浏览器选项,否则会闪退
option = webdriver.EdgeOptions()
option.add_experimental_option("detach", True)
# 实例化浏览器驱动对象,并将配置浏览器选项
# driver = webdriver.Edge(options=option)
#实例化一个浏览器对象(传入浏览器的驱动程序)
bro = webdriver.Edge(options=option)
bro.get('https://www.taobao.com/')# basic-pop-tmpl-closeBtn
#关闭广告弹窗
guanggao_btn = bro.find_element(By.CLASS_NAME,'basic-pop-tmpl-closeBtn')
guanggao_btn.click()#标签定位
search_input = bro.find_element(By.ID,'q')
#标签交互
search_input.send_keys('Iphone')#执行一组js程序
bro.execute_script('window.scrollTo(0,document.body.scrollHeight)')
sleep(2)
#点击搜索按钮
btn = bro.find_element(By.CLASS_NAME,'btn-search')
btn.click()bro.get('https://www.baidu.com')
sleep(2)
#回退
bro.back()
sleep(2)
#前进
bro.forward()sleep(5)bro.quit()
http://www.lryc.cn/news/378149.html

相关文章:

  • 【漏洞复现】红帆iOffice.net wssRtSyn接口处存在SQL注入
  • 云计算【第一阶段(17)】账号和权限管理
  • 环境配置02:CUDA安装
  • Ranger配置图片及json文件预览
  • C语言 | Leetcode C语言题解之第169题多数元素
  • 常说的云VR是什么意思?与传统vr的区别
  • 华为云CodeArts API:API管理一体化平台 5月新特性上线啦!
  • ubuntu16因swap分区uuid错误启动慢排查
  • [保姆级]uniapp自定义导航栏
  • Java 桥接模式(Bridge Pattern)是设计模式中的一种结构型设计模式,桥接模式的核心思想是将抽象与实现解耦
  • 入门Ansible常用模块
  • 全能AI客户端:ChatGPT Web Midjourney Proxy,AI绘画+GPT4o对话
  • Java基础 - 练习(四)打印九九乘法表
  • 软件测试——稳定性测试:adb Monkey
  • 前端vue实战项目结构、常用编辑器vs code 配置
  • Linux系统性能优化实战经验
  • 2024广东省职业技能大赛云计算赛项实战——Ansible部署Zabbix
  • Linux—— ansible循环
  • RabbitMQ 开发指南
  • ElasticSearch学习笔记(二)文档操作、RestHighLevelClient的使用
  • python离线安装第三方库、及其依赖库(单个安装,非批量移植)
  • 昨天发的 npm 包,却因为 registry 同步问题无法安装使用
  • Redis 数据恢复及持久化策略分析
  • vscode 快捷键侧边栏
  • FreeRTOS:1、任务通知vTaskNotifyGiveFromISR保证实时性
  • 监督学习:从数据中学习预测模型的艺术与科学
  • 深入理解Java虚拟机(JVM)中的垃圾回收器
  • 视频集市新增支持多格式流媒体拉流预览
  • 定时器-前端使用定时器3s轮询状态接口,2min为接口超时
  • python实践笔记(二): 类和对象