当前位置：首页 > article >正文

Python爬虫从入门到精通:（36）CrawlSpider实现深度爬取_Python涛哥

article 2025/9/12 2:30:37

我们来看下CrawlSpider实现深度爬取。

爬取阳光热线标题、状态、和详情页内容。

https://wz.sun0769.com/political/index/politicsNewest?id=1&type=4&page=

创建CrawlSpider工程

scrapy startproject sunPro
cd sunPro
scrapy genspider -t crawl sun www.xxx.com
修改配置文件等

在这里插入图片描述

页面解析

提取下页码链接

我们看到这个网站有很多页面，我们先来提取下页码链接。
在这里插入图片描述

很容易分析到页面链接的规律，写下正则：

import scrapy
from scrapy.linkextractors import LinkExtractor
from scrapy.spiders import CrawlSpider, Ruleclass SunSpider(CrawlSpider):name = 'sun'# allowed_domains = ['www.xxx.com']start_urls = ['https://wz.sun0769.com/political/index/politicsNewest?id=1&type=4&page=']# 提取页码链接link = LinkExtractor(allow=r'id=1&page=\d+')rules = (Rule(link, callback='parse_item', follow=True),)def parse_item(self, response):print(response)

在这里插入图片描述

这里我们主要学习深度爬取，后面只用一页作为案例。follow=False

数据解析

我们来获取当前页的标题、详情页地址和状态

在这里插入图片描述

import scrapy
from scrapy.linkextractors import LinkExtractor
from scrapy.spiders import CrawlSpider, Rule
from sunPro.items import SunproItemclass SunSpider(CrawlSpider):name = 'sun'# allowed_domains = ['www.xxx.com']start_urls = ['https://wz.sun0769.com/political/index/politicsNewest?id=1&type=4&page=']# 提取页码链接link = LinkExtractor(allow=r'id=1&page=\d+')rules = (Rule(link, callback='parse_item', follow=False),)# 页面数据解析def parse_item(self, response):li_list = response.xpath('/html/body/div[2]/div[3]/ul[2]/li')for li in li_list:title = li.xpath('./span[3]/a/text()').extract_first()detail_url = 'https://wz.sun0769.com' + li.xpath('./span[3]/a/@href').extract_first()status = li.xpath('./span[2]/text()').extract_first()# 保存item提交给管道item = SunproItem()item['title'] = titleitem['detail_url'] = detail_urlitem['status'] = status**手动发送请求**现在我们用手动发送请求的方式解析详情页数据：```python
# 页面数据解析
def parse_item(self, response):li_list = response.xpath('/html/body/div[2]/div[3]/ul[2]/li')for li in li_list:title = li.xpath('./span[3]/a/text()').extract_first()detail_url = 'https://wz.sun0769.com' + li.xpath('./span[3]/a/@href').extract_first()status = li.xpath('./span[2]/text()').extract_first()# 保存item提交给管道item = SunproItem()item['title'] = titleitem['detail_url'] = detail_urlitem['status'] = statusyield scrapy.Request(url=detail_url, callback=self.parse_detail, meta={'item': item})# 详情页数据解析
def parse_detail(self, response):content = response.xpath('/html/body/div[3]/div[2]/div[2]/div[2]/pre/text()').extract_first()item = response.meta['item']item['content'] = contentyield item

运行一下，我们就获取了全部数据

在这里插入图片描述

完整代码：

sum.py

import scrapy
from scrapy.linkextractors import LinkExtractor
from scrapy.spiders import CrawlSpider, Rule
from sunPro.items import SunproItemclass SunSpider(CrawlSpider):name = 'sun'# allowed_domains = ['www.xxx.com']start_urls = ['https://wz.sun0769.com/political/index/politicsNewest?id=1&type=4&page=']# 提取页码链接link = LinkExtractor(allow=r'id=1&page=\d+')rules = (Rule(link, callback='parse_item', follow=False),)# 页面数据解析def parse_item(self, response):li_list = response.xpath('/html/body/div[2]/div[3]/ul[2]/li')for li in li_list:title = li.xpath('./span[3]/a/text()').extract_first()detail_url = 'https://wz.sun0769.com' + li.xpath('./span[3]/a/@href').extract_first()status = li.xpath('./span[2]/text()').extract_first()# 保存item提交给管道item = SunproItem()item['title'] = titleitem['status'] = statusyield scrapy.Request(url=detail_url, callback=self.parse_detail, meta={'item': item})# 详情页数据解析def parse_detail(self, response):content = response.xpath('/html/body/div[3]/div[2]/div[2]/div[2]/pre/text()').extract_first()item = response.meta['item']item['content'] = contentyield item

items.py

import scrapyclass SunproItem(scrapy.Item):# define the fields for your item here like:# name = scrapy.Field()title = scrapy.Field()status = scrapy.Field()content = scrapy.Field()

Pipeline.py

class SunproPipeline:def process_item(self, item, spider):print(item)return item

settings.py

略~请自己学会熟练配置！

总结

CrawlSpider实现的深度爬取

通用方式：CrawlSpider + Spider实现

关注Python涛哥！学习更多Python知识！

查看全文

http://www.lryc.cn/news/2415373.html

Asp.net page指令属性

createStatement带参数与不带参数的区别

000webhost提供 1500M免费空间可绑顶级域名

电脑使用速度变慢的7个原因

Svchost.exe进程详解及Svchost.exe病毒清除方法

android studio 2.2.2新特性

Django学习(四)——创建其它网页

MicroBlocks 编程案例: 正中靶心！/MicroBlocks 编程案例: 正中靶心！-新手渗透知识点

(附源码)计算机毕业设计ssm超市团购平台

vmware6.5.2序列号_打击恶意使用社交账号2（环境异常的检测）

html span标签详解

基于QJM的HDFS HA总结

Django(9)|基于reseful-api风格的Django-framework

51单片机学习笔记（郭天祥版）（3）——引脚讲解、数码管静态显示、中断系统（外部中断，定时器中断）...

升级sp3后出现:一个问题阻止windows正确检测此机器许可证--解决方案

android开发之GPS定位详解

“黑产“识别算法(社区检测，相似度，关联关系)

如何看待首家搜索引擎导航类网站搜霸天下的出现

IP地址、端口号等网络中的一些基本概念

通信系统概论---同步原理

推荐三款格式转换软件轻松转换3gp格式

Apache ManifoldCF 与 Elasticsearch 5.5 集成项目教程

相关文章：