当前位置: 首页 > news >正文

Selenium自动化程序被检测为爬虫,怎么屏蔽和绕过

Selenium 操作被屏蔽

使用selenium自动化网页时,有一定的概率会被目标网站识别,一旦被检测到,目标网站会拦截该客户端做出的网页操作。

比如淘宝和大众点评的登录页,当手工打开浏览器,输入用户名和密码时,是能正常进入首页的,但是如果是通过selenium打开, 会直接提示验证失败,点击框体重试。

本文介绍一种办法,不需要修改浏览器属性,不需要注入JavaScript脚本,也能轻松绕过网站检测。

Selenium为何会被检测

每一个浏览器访问网站时,都会带上特定的指纹特征,网站会解析这些特征,从而判断这次访问是不是自动化程序。

一个最广为人知的特征是window.navigator.webdriver,该特征直接标明此浏览器是webdriver程序。当一个浏览器通过selenium启动后,在开发者工具中输入这个属性,会发现被标为 true, 而手工打开的浏览器是 false。

实际上,浏览器被检测为webdriver程序的特征并不止这一个,这意味着,就算你通过修改属性,也不一定能绕过网站的检测。

我们可以通过 sannysoft 来检测浏览器指纹,如果浏览器是通过selenium等自动化程序打开的,访问这个网址后会有很多特征暴露这些指纹,这些特征的值和手工打开后的值是不一样的,因此可以很轻易被别人检测出来。

有人也试图不用selenium,换成puppeter和playwright这样的自动化工具,但是结局都是一样的。

Selenium避免被检测方法

浏览器在启动时就会带上指纹特征,如果使用自动化程序启动时已经被标记,那为什么不直接用手工启动,然后用Selenium连接已经启动的浏览器呢?

那手工打开浏览器要做什么操作才能让Selenium连接呢?Selenium又是怎样连接手工打开的浏览器呢?概括起来:

1、打开浏览器时添加以下参数:

--remote-debugging-port=9222 --user-data-dir="C:\\selenium\\ChromeProfile"

2、selenium中设置浏览器选项,通过上面设置的 9222端口连接浏览器:

from selenium.webdriver.chrome.options import Optionschrome_options = Options()
chrome_options.add_experimental_option("debuggerAddress", "127.0.0.1:9222")
driver = webdriver.Chrome(options=chrome_options)

通过 subprocess 运行浏览器

当然,做自动化程序一般不会手工点击图标来打开浏览器,我们可以用命令行启动浏览器,然后再用 selenium 连接。

import subprocess
cmd = '"C:\\Program Files (x86)\\Google\\Chrome\\Application\\chrome.exe" ' \\
'--remote-debugging-port=9222 ' \\
'--user-data-dir="C:\\selenium\\ChromeProfile"'subprocess.run(cmd)

END配套学习资源分享

最后: 为了回馈铁杆粉丝们,我给大家整理了完整的软件测试视频学习教程,朋友们如果需要可以自行免费领取 【保证100%免费】

软件测试面试文档

我们学习必然是为了找到高薪的工作,下面这些面试题是来自阿里、腾讯、字节等一线互联网大厂最新的面试资料,并且有字节大佬给出了权威的解答,刷完这一套面试资料相信大家都能找到满意的工作。

在这里插入图片描述

全套资料获取方式:

http://www.lryc.cn/news/91814.html

相关文章:

  • Nvidia Jetson Orin:开发技巧
  • 为什么需要 git 和 相关的小知识
  • (详解)vue中实现主题切换的三种方式
  • 英国皇家植物园采用机器学习预测植物抗疟性,将准确率从 0.46 提升至 0.67
  • 基于Locust实现MQTT协议服务的压测脚本
  • AURIX TC3XX Cached PFLASH与Non-Cached PFLASH的区别
  • uniapp开发小程序-显示左滑删除效果
  • FPGA 的数字信号处理:Verilog 实现简单的 FIR 滤波器
  • 使用粒子群优化算法(PSO)辨识锂电池二阶RC模型参数(附MATLAB代码)
  • 如何利用地面控制点实现倾斜摄影三维模型数据的几何坐标变换和纠正?
  • 设计规则之里氏替换原则
  • 【叠高高】叠蛋糕游戏的微信小程序开发流程详解
  • 收集关键词的方法有哪些?(如何查找精准的行业流量关键词)
  • 【GreenDao】RxQuery查询并修改GreenDao数据库,完成后更新UI
  • Modifier ‘public‘ is redundant for interface methods错误
  • Redis缓存击穿及解决问题
  • 环境感知算法——2.CenterNet基于KITTI数据集训练
  • JUC 高并发编程基础篇
  • 【十二】设计模式~~~行为型模式~~~命令模式(Java)
  • 可再生能源的不确定性和储能系统的时间耦合的鲁棒性和非预期性区域微电网的运行可行性研究(Matlab代码实现)
  • Revit中如何使创建的族文件内存变小
  • ClassLoader源码
  • Kafka分区消息积压排查指南
  • 数据库 期末复习(4) 概念数据库的设计
  • WuThreat身份安全云-TVD每日漏洞情报-2023-05-26
  • 关于Idea的一些常用设置项
  • Python使用WMI模块获取Windows系统的硬件信息,并使用pyinstaller库编译打包成exe的可执行文件
  • JavaScript语句(七)
  • 孪生诱捕网络在欺骗防御领域的应用
  • 【性能测试】Jenkins+Ant+Jmeter自动化框架的搭建思路