当前位置: 首页 > article >正文

Python爬虫从入门到精通:(36)CrawlSpider实现深度爬取_Python涛哥

我们来看下CrawlSpider实现深度爬取。

爬取阳光热线标题、状态、和详情页内容。

https://wz.sun0769.com/political/index/politicsNewest?id=1&type=4&page=


创建CrawlSpider工程

  1. scrapy startproject sunPro

  2. cd sunPro

  3. scrapy genspider -t crawl sun www.xxx.com

  4. 修改配置文件等

在这里插入图片描述


页面解析

提取下页码链接

我们看到这个网站有很多页面,我们先来提取下页码链接。
在这里插入图片描述

很容易分析到页面链接的规律,写下正则:

import scrapy
from scrapy.linkextractors import LinkExtractor
from scrapy.spiders import CrawlSpider, Ruleclass SunSpider(CrawlSpider):name = 'sun'# allowed_domains = ['www.xxx.com']start_urls = ['https://wz.sun0769.com/political/index/politicsNewest?id=1&type=4&page=']# 提取页码链接link = LinkExtractor(allow=r'id=1&page=\d+')rules = (Rule(link, callback='parse_item', follow=True),)def parse_item(self, response):print(response)

在这里插入图片描述

这里我们主要学习深度爬取,后面只用一页作为案例。follow=False

数据解析

我们来获取当前页的标题、详情页地址和状态

在这里插入图片描述

import scrapy
from scrapy.linkextractors import LinkExtractor
from scrapy.spiders import CrawlSpider, Rule
from sunPro.items import SunproItemclass SunSpider(CrawlSpider):name = 'sun'# allowed_domains = ['www.xxx.com']start_urls = ['https://wz.sun0769.com/political/index/politicsNewest?id=1&type=4&page=']# 提取页码链接link = LinkExtractor(allow=r'id=1&page=\d+')rules = (Rule(link, callback='parse_item', follow=False),)# 页面数据解析def parse_item(self, response):li_list = response.xpath('/html/body/div[2]/div[3]/ul[2]/li')for li in li_list:title = li.xpath('./span[3]/a/text()').extract_first()detail_url = 'https://wz.sun0769.com' + li.xpath('./span[3]/a/@href').extract_first()status = li.xpath('./span[2]/text()').extract_first()# 保存item提交给管道item = SunproItem()item['title'] = titleitem['detail_url'] = detail_urlitem['status'] = status**手动发送请求**现在我们用手动发送请求的方式解析详情页数据:```python
# 页面数据解析
def parse_item(self, response):li_list = response.xpath('/html/body/div[2]/div[3]/ul[2]/li')for li in li_list:title = li.xpath('./span[3]/a/text()').extract_first()detail_url = 'https://wz.sun0769.com' + li.xpath('./span[3]/a/@href').extract_first()status = li.xpath('./span[2]/text()').extract_first()# 保存item提交给管道item = SunproItem()item['title'] = titleitem['detail_url'] = detail_urlitem['status'] = statusyield scrapy.Request(url=detail_url, callback=self.parse_detail, meta={'item': item})# 详情页数据解析
def parse_detail(self, response):content = response.xpath('/html/body/div[3]/div[2]/div[2]/div[2]/pre/text()').extract_first()item = response.meta['item']item['content'] = contentyield item

运行一下,我们就获取了全部数据

在这里插入图片描述


完整代码:

sum.py

import scrapy
from scrapy.linkextractors import LinkExtractor
from scrapy.spiders import CrawlSpider, Rule
from sunPro.items import SunproItemclass SunSpider(CrawlSpider):name = 'sun'# allowed_domains = ['www.xxx.com']start_urls = ['https://wz.sun0769.com/political/index/politicsNewest?id=1&type=4&page=']# 提取页码链接link = LinkExtractor(allow=r'id=1&page=\d+')rules = (Rule(link, callback='parse_item', follow=False),)# 页面数据解析def parse_item(self, response):li_list = response.xpath('/html/body/div[2]/div[3]/ul[2]/li')for li in li_list:title = li.xpath('./span[3]/a/text()').extract_first()detail_url = 'https://wz.sun0769.com' + li.xpath('./span[3]/a/@href').extract_first()status = li.xpath('./span[2]/text()').extract_first()# 保存item提交给管道item = SunproItem()item['title'] = titleitem['status'] = statusyield scrapy.Request(url=detail_url, callback=self.parse_detail, meta={'item': item})# 详情页数据解析def parse_detail(self, response):content = response.xpath('/html/body/div[3]/div[2]/div[2]/div[2]/pre/text()').extract_first()item = response.meta['item']item['content'] = contentyield item

items.py

import scrapyclass SunproItem(scrapy.Item):# define the fields for your item here like:# name = scrapy.Field()title = scrapy.Field()status = scrapy.Field()content = scrapy.Field()

Pipeline.py

class SunproPipeline:def process_item(self, item, spider):print(item)return item

settings.py

略~请自己学会熟练配置!


总结

CrawlSpider实现的深度爬取

  • 通用方式:CrawlSpider + Spider实现

关注Python涛哥!学习更多Python知识!

http://www.lryc.cn/news/2415373.html

相关文章:

  • Asp.net page指令属性
  • createStatement带参数与不带参数的区别
  • 000webhost提供 1500M免费空间 可绑顶级域名
  • 电脑使用速度变慢的7个原因
  • Svchost.exe进程详解及Svchost.exe病毒清除方法
  • android studio 2.2.2新特性
  • Django学习(四)——创建其它网页
  • MicroBlocks 编程案例: 正中靶心!/MicroBlocks 编程案例: 正中靶心!-新手渗透知识点
  • (附源码)计算机毕业设计ssm超市团购平台
  • 谈谈我是如何选择VC界面皮肤库
  • 码农微信公众账号推荐
  • 我是这样来做破解qq,做QQ外挂的 【-】
  • IBM服务器安装与HBA卡的驱动问题
  • vmware6.5.2序列号_打击恶意使用社交账号2(环境异常的检测)
  • html span标签详解
  • 基于QJM的HDFS HA总结
  • Django(9)|基于reseful-api风格的Django-framework
  • 51单片机学习笔记(郭天祥版)(3)——引脚讲解、数码管静态显示、中断系统(外部中断,定时器中断)...
  • 升级sp3后出现:一个问题阻止windows正确检测此机器许可证--解决方案
  • android开发之GPS定位详解
  • “黑产“识别算法(社区检测,相似度,关联关系)
  • 如何看待首家搜索引擎导航类网站搜霸天下的出现
  • IP地址、端口号等网络中的一些基本概念
  • 通信系统概论---同步原理
  • 推荐三款格式转换软件轻松转换3gp格式
  • Apache ManifoldCF 与 Elasticsearch 5.5 集成项目教程
  • Web应用项目开发初学者知识指南
  • 163邮箱如何群发邮件
  • GOOGLE版的金山
  • 中级软件设计师——高频真题及解析(一)