当前位置: 首页 > news >正文

可狱可囚的爬虫系列课程 16:爬虫重试机制

一、retrying模块简介

在爬虫中,因为我们是在线爬取内容,所以可能会因为网络、服务器等原因导致报错,那么这类错误出现以后,我们想要做的肯定是在报错处进行重试操作,Python提供了一个很好的模块,能够直接帮助我们实现重试操作,它就是retrying模块。当然,重试操作不仅仅只用于爬虫,还可以用于其他更广泛的领域。

retrying 是一个用Python编写的重试库,用于将重试行为添加到常规任务中,让你写的代码拥有重试功能。官方文档:https://github.com/rholder/retrying

二、案例讲解

我这里有一些网址,现在要求编写一个爬虫程序,将这些网站访问一遍,那么应该如何确保程序能够顺利的执行完成呢,有些小伙伴会说使用异常捕获防止程序出现意外,这是一种解决办法,那么如果我再要求一个网站的请求不能等待过长时间并且针对于有错误的地址进行重试,应该如何解决呢,这个时候我们就需要引入重试机制。

(1)无重试机制的爬虫

import requestsdef requests_url(href):URL = hrefHeaders = {'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/109.0.0.0 Safari/537.36'}resp = requests.get(url=URL, headers=Headers, timeout=3)if resp.status_code == 200:print(f'{href}访问成功')UrlList = ['https://www.chinanews.com/scroll-news/news5.html', 'https://ssr4.scrape.center/','https://www.chinanews.com/scroll-news/news12.html', 'https://www.chinanews.com/scroll-news/news3.html','https://www.chinanews.com/scroll-news/news8.html', 'https://www.chinanews.com/scroll-news/news2.html','https://www.chinanews.com/scroll-news/news11.html', 'https://www.chinanews.com/scroll-news/news1.html','https://www.chinanews.com/scroll-news/news4.html', 'https://www.chinanews.com/scroll-news/news7.html','https://www.chinanews.com/scroll-news/news10.html', 'https://www.chinanews.com/scroll-news/news9.html','https://www.chinanews.com/scroll-news/news6.html']
for i in UrlList:print(f'正在访问:{i}')requests_url(i)

这段代码在执行时,报了Read timed out的异常提示超时,那么超时的原因有多种,可能是本地网络原因、也可能是网址服务器原因等,此时便需要使程序具备能够重试的功能。

(2)引入了重试机制的爬虫

接下来我们导入安装好的retrying模块,只要在需要重试的函数前面添加指定的装饰器,即可使程序具备重试功能,看以下修改:

from retrying import retry@retry
def requests_url(href):URL = hrefHeaders = {'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/109.0.0.0 Safari/537.36'}resp = requests.get(url=URL, headers=Headers, timeout=3)if resp.status_code == 200:print(f'{href}访问成功')

(3)重试机制修订

引入了 retrying 的代码存在一个弊端,如果这个网址本身就是联不通的,那么它会永远重试下去,这并不是我们想看到的,所以还要添加一下参数:stop_max_attempt_number(最大重试次数),可以给这个参数指定一个数字,比如下面指定的数字5,便是让其最多重试5次。

from retrying import retry@retry(stop_max_attempt_number=5)
def requests_url(href):URL = hrefHeaders = {'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/109.0.0.0 Safari/537.36'}resp = requests.get(url=URL, headers=Headers, timeout=3)if resp.status_code == 200:print(f'{href}访问成功')

但是这样的修改还是不尽人意,虽然添加了最大重试次数,但非常快速的机械性的连续重试,总有一种会随时出发反爬机制的感觉,所以还可以设置两次重试之间的等待时间:wait_fixed(单位是毫秒),代码如下:

from retrying import retry@retry(stop_max_attempt_number=5, wait_fixed=2000)
def requests_url(href):URL = hrefHeaders = {'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/109.0.0.0 Safari/537.36'}resp = requests.get(url=URL, headers=Headers, timeout=3)if resp.status_code == 200:print(f'{href}访问成功')

不过我还是建议重复性的操作添加点随机性比较好,将 wait_fixed 修改为 wait_random_min 和 wait_random_max,表示从指定的时间范围内随机一个等待时间。

from retrying import retry@retry(stop_max_attempt_number=5, wait_random_min=1000, wait_random_max=2000)
def requests_url(href):URL = hrefHeaders = {'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/109.0.0.0 Safari/537.36'}resp = requests.get(url=URL, headers=Headers, timeout=3)if resp.status_code == 200:print(f'{href}访问成功')

三、最终代码

import requests
from retrying import retry@retry(stop_max_attempt_number=5, wait_random_min=1000, wait_random_max=2000)
def requests_url(href):URL = hrefHeaders = {'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/109.0.0.0 Safari/537.36'}resp = requests.get(url=URL, headers=Headers, timeout=3)if resp.status_code == 200:print(f'{href}访问成功')UrlList = ['https://www.chinanews.com/scroll-news/news5.html', 'https://ssr4.scrape.center/','https://www.chinanews.com/scroll-news/news12.html', 'https://www.chinanews.com/scroll-news/news3.html','https://www.chinanews.com/scroll-news/news8.html', 'https://www.chinanews.com/scroll-news/news2.html','https://www.chinanews.com/scroll-news/news11.html', 'https://www.chinanews.com/scroll-news/news1.html','https://www.chinanews.com/scroll-news/news4.html', 'https://www.chinanews.com/scroll-news/news7.html','https://www.chinanews.com/scroll-news/news10.html', 'https://www.chinanews.com/scroll-news/news9.html','https://www.chinanews.com/scroll-news/news6.html']
for i in UrlList:print(f'正在访问:{i}')try:requests_url(i)except:print('重试结束,依旧报错,跳过,进行下一项任务!')

四、总结

重试机制仅仅是让爬虫在某一网站访问不通的情况下多尝试几次,最终还是会报错,所以重试机制依旧需要与异常捕获结合使用。
http://www.lryc.cn/news/547903.html

相关文章:

  • 第十五届蓝桥杯----B组cpp----真题解析(小白版本)
  • 软考架构师笔记-数据库系统
  • Spring AI 1.0.0-M6 快速开始(一)
  • go 分布式redis锁的实现方式
  • Unity中Stack<T>用法以及删除Stack<GameObject>的方法
  • Vue进阶之Vue3源码解析(二)
  • linux的文件系统及文件类型
  • 如何下载安装 PyCharm?
  • 3D空间曲线批量散点化软件V1.0正式发布,将空间线条导出坐标点,SolidWorks/UG/Catia等三维软件通用
  • WPS AI+office-ai的安装、使用
  • java后端开发day27--常用API(二)正则表达式爬虫
  • 拼电商客户管理系统
  • 华为:Wireshark的OSPF抓包分析过程
  • Android项目优化同步速度
  • 在线教育网站项目第二步 :学习roncoo-education,服务器为ubuntu22.04.05
  • STM32-GPIO详解
  • 【Framework系列之Client】UIManager和UIPanel模块介绍
  • 阿里云操作系统控制台——ECS操作与性能优化
  • 【长安大学】苹果手机/平板自动连接认证CHD-WIFI脚本(快捷指令)
  • 第51天:Web开发-JavaEE应用SpringBoot栈身份验证JWT令牌Security鉴权安全绕过
  • 中原银行:从“小机+传统数据库”升级为“OceanBase+通用服务器”,30 +系统成功上线|OceanBase DB大咖说(十五)
  • Java面试第八山!《Spring框架》
  • LangChain教程 - Agent - 支持 9 种 ReAct 交互
  • 蓝桥杯备赛日记【day1】(c++赛道)
  • 【大模型基础_毛玉仁】1.4 语言模型的采样方法
  • [内网安全] Windows 本地认证 — NTLM 哈希和 LM 哈希
  • 基于SNR估计的自适应码率LDPC编译码算法matlab性能仿真,对比固定码率LDPC的系统传输性能
  • opencv 模板匹配方法汇总
  • Embedding技术:DeepWalkNode2vec
  • 微信小程序注册组件