当前位置: 首页 > news >正文

Python爬虫——scrapy_工作原理

  1. 引擎向spiders要url
  2. 引擎把将要爬取的url给调度器
  3. 调度器会将url生成的请求对象放入到指定的队列中
  4. 从队列中出队一个请求
  5. 引擎将请求交给下载器进行处理
  6. 下载器发送请求获取互联网数据
  7. 下载器将数据返回给引擎
  8. 引擎将数据再次给到spiders
  9. spiders通过xpath解析该数据,得到数据或者url
  10. spiders将数据或者url给到引擎
  11. 引擎判断改数据是url,还是数据,是数据的话就交给管道(itempipeline)处理,是url的话就交给调度器处理
    在这里插入图片描述
http://www.lryc.cn/news/127820.html

相关文章:

  • gRPC vs REST:创建API的方法比较
  • 缓存平均的两种算法
  • SpringBoot的配置文件(properties与yml)
  • 如何应用项目管理软件进行敏捷开发管理
  • ARM DIY 硬件调试
  • DataFrame.rename()函数--Pandas
  • 09- DMA(DirectMemoryAccess直接存储器访问)
  • 责任链模式
  • 【BI看板】Docker-compose安装Superset,安装最新版本2.1.0
  • VS2019生成的DLL,给QT(MinGW版本)使用的小结
  • c++--SLT六大组件之间的关系
  • 解析个人信息保护影响评估
  • 2.阿里云对象存储OSS
  • (三)Unity开发Vision Pro——入门
  • 召集令:CloudQuery 社区有奖征文活动来啦!
  • 【傅里叶级数与傅里叶变换】数学推导——1、基础知识点回顾及[Part1:三角函数的正交性]介绍
  • BUUCTF [MRCTF2020]Ezpop解题思路
  • 【IMX6ULL驱动开发学习】07.驱动程序分离的思想之平台总线设备驱动模型和设备树
  • 深度学习中的python语法笔记总结
  • Reids 的整合使用
  • Vue3 —— watchEffect 高级侦听器
  • Java异步子线程读取主线程参数的若干好玩场景
  • Android 视频开发
  • 【计算机网络篇】UDP协议
  • LeetCode 2682. 找出转圈游戏输家
  • 数据结构单链表
  • 自定义WEB框架结合Jenkins实现全自动测试
  • PHP加密与安全的最佳实践
  • SQL Server数据库无法连接
  • videojs 播放视频