当前位置: 首页 > news >正文

Python爬虫图片验证码和滑块验证码识别总结

前言

当我们使用selenium进行浏览器模拟的时候,已经可以解决大多数数据加密问题了,我们直接模拟浏览器行为采集数据了,但是图片验证码和滑块验证码识别对于我们浏览器模拟来说是无法绕开的反爬问题。

解决图片验证码和滑块验证码的思路

常见的使用OpenCV进行图像识别,计算出滑块的移动距离,使用selenium进行对滑块拖动       

 这种方法虽然是一个方案。但是OpenCV学习难度大,即使学习成功使用不熟练也只能解决一些简单的图片识别。稍微复杂点的就需要耗费大量时间进行尝试,解决验证码的代价太大,得不偿失。

可以使用第三方专业的工具对OpenCV这个功能进行代替,如使用第三方云码平台,直接调用它的API对滑块图片进行传入就会直接返回滑块移动距离,直接使用selenium拖动滑块。方便快捷,功能强大稳定。

对于selenium拖动滑块到指定位置还是不能成功的原因记录

首先,先看一下你的selenium浏览器尽量多的屏蔽自动化行为,有可能是被爬取的网址识别出你是机器,所以失效

其次,就是在移动滑块的时候,要有真人的感觉,比如:先快后慢,有小幅度的上下抖动类似的行为调整

http://www.lryc.cn/news/582236.html

相关文章:

  • Taro+Vue3实现微信小程序富文本编辑器组件开发指南
  • OpenCV人脸分析------绘制面部关键点函数drawFacemarks()
  • 虚幻引擎UE5 GAS开发RPG游戏-02 设置英雄角色-18 改成网络多人游戏
  • turborepo 如何解决git管理包过大的问题
  • 5、Receiving Messages:Message Listener Containers
  • Python实现文件夹中文件名与Excel中存在的文件名进行对比,并进行删除操作
  • 【无标题】三维拓扑量子色动力学模型:理论重构与实验验证
  • day16——Java集合进阶(Collection、List、Set)
  • windows安装python环境以及对应编辑器的详细流程
  • 从依赖地狱到依赖天堂PNPM
  • VmWare 安装 mac 虚拟机
  • 大模型在肾囊肿诊疗全流程预测及应用研究报告
  • 【保姆级喂饭教程】Git图形化客户端Sourcetree安装及使用教程
  • Linux系统从入门到精通!第四天(shell编程和Docker)
  • codeforces Round 1021-1030(部分题解)
  • 【Note】《Kafka: The Definitive Guide》第7章 Building Data Pipelines
  • 源哈希(sh)解析
  • etcd-cpp-apiv3 二次封装
  • [学习] C语言数学库函数背后的故事:`double erf(double x)`
  • 【数据分析】R语言基于虚弱指数的心血管疾病风险评估
  • JS实现基础算法与dom的结构
  • Spring MVC HandlerInterceptor 拦截请求及响应体
  • 【Netty高级】Netty的技术内幕
  • token非对称加密
  • AI的出现,是否能替代IT从业者
  • React19 新增Hooks:useOptimistic
  • 系统学习Python——并发模型和异步编程:进程、线程和GIL
  • 量子计算+AI芯片:光子计算如何重构神经网络硬件生态
  • 动手学深度学习13.7. 单发多框检测(SSD)-笔记练习(PyTorch)
  • Android 10 Gnss数据流程