当前位置: 首页 > news >正文

scrapy框架流程

在这里插入图片描述

1、Scrapy从Spider子类中提取start_url,然后构造为request请求对象

2、将request请求对象传递给爬虫中间件

3、将request请求对象传递给Scrapy引擎(核心代码)

4、将request请求对象传递给调度器(它负责对多个request安排,好比交通管理员负责指挥交通)

5、将request请求对象传递给scrapy引擎

6、Scrapy引擎将request请求对象传递给下载中间件(可以更换代理IP 更换cookie 更换user-agent,自动重试等)

7、request请求对象传递给到下载器(它通过异步的发送HTTP(s)请求。得到响应封装为response对象)

8、将requests传递给下载中间件

9、下载中间件将response对象传递给scrapy引擎

10、Scrapy 引擎将response对象传递给爬虫中间件(这里可以处理异常情况)

11、爬虫对象中的parse函数被调用(在这里可以得到的response对象进行处理 例如status得到的响应码 ,xpath可以进行提取数据等)

12、第11步调用的yelid管道 调用piplines 对数据进行存储或处理

http://www.lryc.cn/news/241651.html

相关文章:

  • 802.11 帧的Reason Code 位和Status Code 位
  • 骨传导能保护听力吗?为什么说骨传导耳机可以保护听力?
  • 【iOS】实现评论区展开效果
  • POE交换机——电源解决方案-升压控制器\降压控制器\中高压降压转换器
  • [C/C++]数据结构 循环队列
  • Cache学习(2):Cache结构 命中与缺失 多级Cache结构 直接映射缓存
  • vue前端前端页面权限验证方式
  • jenkins springCloud项目优雅下线
  • indexOf
  • STM32分区跳转问题
  • 亿级流量架构服务降级
  • 【技术分享】RK3399 Ubuntu通过Python实现录音和播放功能
  • 关于vs code Debug调试时候出现“找不到任务C/C++: g++.exe build active file” 解决方法
  • 交叉导轨在光学工作台起什么重要作用?
  • 易点易动固定资产管理系统:实现固定资产与财务系统的高效对接
  • 做亚马逊多久可以赚钱?做亚马逊需要多少资金?——站斧浏览器
  • 计算机应用基础_错题集_基础知识---网络教育统考工作笔记006
  • C#面试题3
  • MariaDB(基础信息)
  • SpringBoot + 通义千问 + 自定义React组件,支持EventStream数据解析!
  • Redis中文结果查看方式
  • 计算机组成原理-磁盘存储器
  • 连接docker swarm和凌鲨
  • Qt实现画的图片移动
  • 比较2个点的3种结构在不规则平面上的占比
  • 最小二乘线性回归
  • 【django+vue】连接数据库、登录功能
  • NX二次开发UF_CSYS_edit_matrix_of_object 函数介绍
  • 封装公共el-form表单
  • OpenHarmony-4.0-Release 源码编译记录