当前位置: 首页 > news >正文

python爬虫--某房源网站验证码破解

文章目录

    • 使用模块
    • 爬取目标
    • 验证码
    • 技术细节
    • 实现成果
    • 代码实现

使用模块

requests请求模块

lxml数据解析模块

ddddocr光学识别

爬取目标

网站验证码破解思路是统一的,本文以城市列表为例

目标获取城市名以及城市连接,之后获取城市房源信息技术直接替换地址即可

验证码

技术细节

一、 访问频次过快会触发验证码页面

使用302从定向到验证码页面,在请求地址中包含location参数与ext参数需要提取出来供后续使用

    print(f"触发验证码")redirect_url = res.headers["location"]parsed_url = urlparse(redirect_url)query_params = parse_qs(parsed_url.query)location = query_params.get('location')[0]ext = query_params.get('ext', [''])[0]

二、点击点击验证按钮

发起请求获取验证码图片对应的base64编码

<
http://www.lryc.cn/news/500891.html

相关文章:

  • Micropython编译ESP32C3开发板版本过程详细步骤步骤
  • 【开源免费】基于SpringBoot+Vue.JS大创管理系统(JAVA毕业设计)
  • mysql 和 tidb的区别
  • 传输层5——TCP可靠传输的实现(重点!!)
  • 基于Python实现web网页内容爬取
  • Centos7和9安装mysql5.7和mysql8.0详细教程(超详细)
  • 星闪WS63E开发板的OpenHarmony环境构建
  • MongoDB数据建模小案例
  • MySQL(库的操作)
  • 【55 Pandas+Pyecharts | 实习僧网Python岗位招聘数据分析可视化】
  • java中23种设计模式的优缺点
  • 【JavaEE】多线程(7)
  • 如何高效的向AI大模型提问? - 提示工程Prompt Engineering
  • 4K高清壁纸网站推荐
  • EasyExcel注解使用
  • Visual Basic 6 关于应用的类库 - 开源研究系列文章
  • C#泛型
  • go语言的成神之路-标准库篇-fmt标准库
  • React Native的router解析
  • Linux update-alternatives 命令详解
  • 【踩坑】修复报错libcurl.so.4、LIBFFI_BASE_7.0、libssl.so.3
  • python网络爬虫基础:html基础概念与遍历文档树
  • 【已解决】MacOS上VMware Fusion虚拟机打不开的解决方法
  • 经典视觉神经网络1 CNN
  • 一些硬件知识【2024/12/6】
  • 网络安全法-网络安全支持与促进
  • 【Docker】如何在Docker中配置防火墙规则?
  • Cesium 问题: 添加billboard后移动或缩放地球,标记点位置会左右偏移
  • 使用Python3 连接操作 OceanBase数据库
  • SpringBoot该怎么使用Neo4j - 优化篇