当前位置：首页 > news >正文

Scrapy（一）：轻松爬取图片网站内容

news 2025/8/7 7:51:31

一、CrawlSpider 简介

二、实战案例：图片网站爬取

三、代码解析：核心组件详解

类定义：

2.核心属性：

3.爬取规则（Rules）：

4.数据提取方法（parse_item）：

四、运行与调试

五、常见问题解决

1.链接提取失败

2.爬取范围失

3. 重复爬取

在网络数据采集领域，Scrapy 框架以其高效、灵活的特性深受开发者青睐。本文将以爬取 4K 美女图片网站为例，详细讲解 Scrapy 中 CrawlSpider 的基础用法，帮助初学者快速掌握全站爬取技巧。

一、CrawlSpider 简介

CrawlSpider 是 Scrapy 提供的一种高级爬虫类，特别适合对整站内容进行爬取。它通过定义爬取规则（Rule），可以自动跟进链接并提取数据，极大简化了爬虫的开发流程。与基础的 Spider 相比，CrawlSpider 更擅长处理具有一定结构的网站，如新闻网站、电商平台等。

二、实战案例：图片网站爬取

以下是本次使用的基础爬虫代码：

from scrapy.linkextractors import LinkExtractor
from scrapy.spiders import CrawlSpider, Ruleclass TupianSpider(CrawlSpider):name = "tupian"# allowed_domains = ["pic.netbian.com"]start_urls = ["https://pic.netbian.com/4kmeinv/"]rules = (Rule(LinkExtractor(restrict_xpaths=('//*[@id="main"]/div[4]/ul/li')), callback="parse_item", follow=True),Rule(LinkExtractor(restrict_xpaths=('//*[@id="main"]/div[5]/a')),  follow=True)  #翻页，不需要回调函数)def parse_item(self, response):item = {}print(response.xpath('//*[@id="main"]/div[3]/div[1]/div[1]/h1').extract_first())return item

三、代码解析：核心组件详解

类定义：

TupianSpider继承自CrawlSpider，这是使用 CrawlSpider 的基础。

2.核心属性：

name：爬虫名称，用于在命令行启动爬虫时使用（如scrapy crawl tupian）。

start_urls：起始 URL 列表，爬虫从这些 URL 开始爬取。这里设置为 "https://pic.netbian.com/4kmeinv/"，即图片分类页。

allowed_domains：可选属性，用于限制爬虫只在指定域名下爬取。本例中注释掉该属性，允许爬虫跟进所有相关链接。

3.爬取规则（Rules）：

规则是 CrawlSpider 的核心，由Rule对象组成的元组。每个Rule定义了一种链接提取和处理方式。
第一个规则：LinkExtractor(restrict_xpaths=('//*[@id="main"]/div[4]/ul/li'))表示使用 XPath 提取符合条件的链接，这些链接对应图片详情页。callback="parse_item"指定用parse_item方法处理这些链接的响应，follow=True表示继续跟进该页面中的链接。