当前位置：首页 > news >正文

scrapy框架流程

news 2025/7/28 22:15:54

在这里插入图片描述

1、Scrapy从Spider子类中提取start_url,然后构造为request请求对象

2、将request请求对象传递给爬虫中间件

3、将request请求对象传递给Scrapy引擎（核心代码）

4、将request请求对象传递给调度器（它负责对多个request安排，好比交通管理员负责指挥交通）

5、将request请求对象传递给scrapy引擎

6、Scrapy引擎将request请求对象传递给下载中间件（可以更换代理IP 更换cookie 更换user-agent，自动重试等）

7、request请求对象传递给到下载器（它通过异步的发送HTTP（s）请求。得到响应封装为response对象）

8、将requests传递给下载中间件

9、下载中间件将response对象传递给scrapy引擎

10、Scrapy 引擎将response对象传递给爬虫中间件（这里可以处理异常情况）

11、爬虫对象中的parse函数被调用（在这里可以得到的response对象进行处理例如status得到的响应码，xpath可以进行提取数据等）

12、第11步调用的yelid管道调用piplines 对数据进行存储或处理

查看全文

http://www.lryc.cn/news/241651.html

802.11 帧的Reason Code 位和Status Code 位

骨传导能保护听力吗？为什么说骨传导耳机可以保护听力？

【iOS】实现评论区展开效果

POE交换机——电源解决方案-升压控制器\降压控制器\中高压降压转换器

[C/C++]数据结构循环队列

Cache学习（2）：Cache结构命中与缺失多级Cache结构直接映射缓存

vue前端前端页面权限验证方式

jenkins springCloud项目优雅下线

indexOf

STM32分区跳转问题

亿级流量架构服务降级

【技术分享】RK3399 Ubuntu通过Python实现录音和播放功能

关于vs code Debug调试时候出现“找不到任务C/C++: g++.exe build active file” 解决方法

交叉导轨在光学工作台起什么重要作用？

易点易动固定资产管理系统：实现固定资产与财务系统的高效对接

做亚马逊多久可以赚钱？做亚马逊需要多少资金？——站斧浏览器

计算机应用基础_错题集_基础知识---网络教育统考工作笔记006

C#面试题3

MariaDB（基础信息）

SpringBoot + 通义千问 + 自定义React组件，支持EventStream数据解析！

【django+vue】连接数据库、登录功能

NX二次开发UF_CSYS_edit_matrix_of_object 函数介绍

封装公共el-form表单

OpenHarmony-4.0-Release 源码编译记录

1、Scrapy从Spider子类中提取start_url,然后构造为request请求对象

2、将request请求对象传递给爬虫中间件

3、将request请求对象传递给Scrapy引擎（核心代码）

4、将request请求对象传递给调度器（它负责对多个request安排，好比交通管理员负责指挥交通）

5、将request请求对象传递给scrapy引擎

6、Scrapy引擎将request请求对象传递给下载中间件（可以更换代理IP 更换cookie 更换user-agent，自动重试等）

7、request请求对象传递给到下载器（它通过异步的发送HTTP（s）请求。得到响应封装为response对象）

8、将requests传递给下载中间件

9、下载中间件将response对象传递给scrapy引擎

10、Scrapy 引擎将response对象传递给爬虫中间件（这里可以处理异常情况）

11、爬虫对象中的parse函数被调用（在这里可以得到的response对象进行处理 例如status得到的响应码 ，xpath可以进行提取数据等）

12、第11步调用的yelid管道 调用piplines 对数据进行存储或处理

相关文章：

11、爬虫对象中的parse函数被调用（在这里可以得到的response对象进行处理例如status得到的响应码，xpath可以进行提取数据等）

12、第11步调用的yelid管道调用piplines 对数据进行存储或处理