当前位置: 首页 > news >正文

Scrapy源码解析:DownloadHandlers设计与解析

1、源码解析

代码路径:scrapy/core/downloader/__init__.py
详细代码解析,请看代码注释

"""Download handlers for different schemes"""import logging
from typing import TYPE_CHECKING, Any, Callable, Dict, Generator, Union, castfrom twisted.internet import defer
from twisted.internet.defer import Deferredfrom scrapy import Request, Spider, signals
from scrapy.exceptions import NotConfigured, NotSupported
from scrapy.utils.httpobj import urlparse_cached
from scrapy.utils.misc import create_instance, load_object
from scrapy.utils.python import without_none_valuesif TYPE_CHECKING:from scrapy.crawler import Crawlerlogger = logging.getLogger(__name__)class DownloadHandlers:def __init__(self, crawler: "Crawler"):self._crawler: "Crawler" = crawlerself._schemes: Dict[str, Union[str, Callable]] = {}                               # self._schemes 用于存放协议:协议处理器路径的字典,注意是协议处理器的路径,还没有实例化这个协议处理器。self._handlers: Dict[str, Any] = {}  # stores instanced handlers for schemes 用于存放各个协议的下载器的实例self._notconfigured: Dict[str, str] = {}  # remembers failed handlers  # 记录不在设置中设置的协议handlers: Dict[str, Union[str, Callable]] = without_none_values(crawler.settings.getwithbase("DOWNLOAD_HANDLERS") # 读取配置中,设置的什么协议用什么下载器)for scheme, clspath in handlers.items():self._schemes[scheme] = clspath           # 把协议:协议处理器存入self._schemesself._load_handler(scheme, skip_lazy=True)# 在这个循环里就加载了大部分协议下载器。只有s3没有被加载。在调用self._load_handler的时候# 这里传的skip_lazy为True,在self._load_handler内部需要与各个协议下载器中的lazy属性结合判断,最终决定要不要加载crawler.signals.connect(self._close, signals.engine_stopped)def _get_handler(self, scheme: str) -> Any: # 就是根据协议名,获取对应的下载器实例"""Lazy-load the downloadhandler for a schemeonly on the first request for that scheme."""if scheme in self._handlers:       # 如果已经取过对应协议的处理器了,就直接返回该处理器return self._handlers[scheme]if scheme in self._notconfigured:  # 如果是已知的未配置的协议,就直接返回Nonereturn Noneif scheme not in self._schemes:self._notconfigured[scheme] = "no handler available for that scheme" # 第一次出现一个未配置下载器的协议的时候,记录一下这个协议return Nonereturn self._load_handler(scheme)def _load_handler(self, scheme: str, skip_lazy: bool = False) -> Any: # 根据协议名,实例化下载器path = self._schemes[scheme]try:dhcls = load_object(path) # 加载下载器类if skip_lazy and getattr(dhcls, "lazy", True): # 判断要不要惰性加载return Nonedh = create_instance(   # 实例化协议下载器objcls=dhcls,settings=self._crawler.settings,crawler=self._crawler,)except NotConfigured as ex:self._notconfigured[scheme] = str(ex)return Noneexcept Exception as ex:logger.error('Loading "%(clspath)s" for scheme "%(scheme)s"',{"clspath": path, "scheme": scheme},exc_info=True,extra={"crawler": self._crawler},)self._notconfigured[scheme] = str(ex)return Noneelse:self._handlers[scheme] = dhreturn dhdef download_request(self, request: Request, spider: Spider) -> Deferred: # 从request中取出协议,然后取出下载器,下载scheme = urlparse_cached(request).schemehandler = self._get_handler(scheme)if not handler:raise NotSupported(f"Unsupported URL scheme '{scheme}': {self._notconfigured[scheme]}")return cast(Deferred, handler.download_request(request, spider))@defer.inlineCallbacksdef _close(self, *_a: Any, **_kw: Any) -> Generator[Deferred, Any, None]: # 当收到引擎的engine_stopped的信号的时候,挨个的停止各个协议的下载器for dh in self._handlers.values():if hasattr(dh, "close"):yield dh.close()

2、文件解析

可以把DownloadHandlers理解成各个协议下载器的处理器。用来加载各个协议对应的下载器的处理器。下图可以看出scrapy默认提供了data、file、ftp、http、s3协议的下载器。
在这里插入图片描述

3、结构示意图

在这里插入图片描述

http://www.lryc.cn/news/473571.html

相关文章:

  • shell基础-awk
  • @Controller 和 @RestController 区别
  • 【数据库设计】规范设计理论之数据依赖的公理系统(1)
  • Leetcode 合并两个数组
  • Native Crash 信号速查
  • 【工具变量】自由贸易试验区试点DID数据集(2003-2023年)
  • js-在数组中根据name查找出对应id(find与filter方法)
  • 推荐:自然语言处理方向的一些创新点
  • 成都睿明智科技有限公司抖音电商服务的领航者
  • 【大数据学习 | kafka】kafka的整体框架与数据结构
  • 隐私保护下的数据提取策略
  • vue 和 django 报 CORS(跨域资源共享,Cross-Origin Resource Sharing)是一种跨域访问的机制,
  • 「Mac畅玩鸿蒙与硬件3」鸿蒙开发环境配置篇3 - DevEco Studio 插件安装与配置
  • 【论文阅读】PGAN
  • 基于Unet卷积神经网络的脑肿瘤MRI分割
  • [java][基础]HTTPTomcatServlet
  • 【开源免费】基于SpringBoot+Vue.JS网上超市系统(JAVA毕业设计)
  • 【单片机】深入剖析USART与UART的区别
  • ‌Linux tac命令‌
  • 从简单的demo开始让您逐步了解GetX的用法
  • JAVA的动态代理
  • 「图文详解」Pycharm 远程服务器Debug
  • Golang反射在实际开发中的应用场景
  • 【二叉树】C非递归算法实现二叉树的先序、中序、后序遍历
  • Android——事件冲突处理
  • vue + elementui 全局Loading效果
  • 深度了解flink(十) JobManager(4) ResourceManager HA
  • 【万兴科技-注册_登录安全分析报告】
  • Android启动流程_Zygote阶段
  • 2022NOIP比赛总结