当前位置：首页 > news >正文

Python爬虫进阶：使用Scrapy库进行数据提取和处理

news 2025/8/6 5:54:35

在我们的初级教程中，我们介绍了如何使用Scrapy创建和运行一个简单的爬虫。在这篇文章中，我们将深入了解Scrapy的强大功能，学习如何使用Scrapy提取和处理数据。

一、数据提取：Selectors和Item

在Scrapy中，提取数据主要通过Selectors来完成。Selectors基于XPath或CSS表达式的查询语言来选取HTML文档中的元素。你可以在你的爬虫中使用response对象的xpath或css方法来创建一个Selector对象。

例如，我们可以修改我们的QuotesSpider爬虫，使用Selectors来提取每个引用的文本和作者：

import scrapyclass QuotesSpider(scrapy.Spider):name = "quotes"start_urls = ['http://quotes.toscrape.com/page/1/',]def parse(self, response):for quote in response.css('div.quote'):text = quote.css('span.text::text').get()author = quote.css('span small::text').get()print(f'Text: {text}, Author: {author}')

此外，Scrapy还提供了Item类，可以定义你想要收集的数据结构。Item类非常适合收集结构化数据，如我们从quotes.toscrape.com中获取的引用：

import scrapyclass QuoteItem(scrapy.Item):text = scrapy.Field()author = scrapy.Field()

然后我们可以修改QuotesSpider爬虫，使其生成和收集QuoteItem对象：

class QuotesSpider(scrapy.Spider):name = "quotes"start_urls = ['http://quotes.toscrape.com/page/1/',]def parse(self, response):for quote in response.css('div.quote'):item = QuoteItem()item['text'] = quote.css('span.text::text').get()item['author'] = quote.css('span small::text').get()yield item

二、数据处理：Pipelines

Scrapy使用数据管道（pipelines）来处理爬虫从网页中抓取的Item。当爬虫生成一个Item，它将被发送到Item Pipeline进行处理。

Item Pipeline是一些按照执行顺序排列的类，每个类都是一个数据处理单元。每个Item Pipeline组件都是一个Python类，必须实现一个process_item方法。这个方法必须返回一个Item对象，或者抛出DropItem异常，被丢弃的item将不会被之后的pipeline组件所处理。

例如，我们可以添加一个Pipeline，将收集的引用保存到JSON文件中：

import jsonclass JsonWriterPipeline(object):def open_spider(self, spider):self.file = open('quotes.jl', 'w')def close_spider(self, spider):self.file.close()def process_item(self, item, spider):line = json.dumps(dict(item)) + "\n"self.file.write(line)return item

然后你需要在项目的设置文件（settings.py）中启用你的Pipeline：

ITEM_PIPELINES = {'tutorial.pipelines.JsonWriterPipeline': 1,
}

在这篇文章中，我们更深入地探讨了Scrapy的功能，包括如何使用Selectors和Item提取数据，如何使用Pipelines处理数据。在下一篇文章中，我们将学习如何使用Scrapy处理更复杂的情况，如登录、cookies、以及如何避免爬虫被网站识别和封锁等问题。

查看全文

http://www.lryc.cn/news/160889.html

五）Stable Diffussion使用教程：文生图之高清修复

SQL SERVER 如何实现UNDO REDO 和PostgreSQL 有近亲关系吗

SpringBoot原理-自动配置-原理分析-源码跟踪

安全基础 --- 原型链污染

c++中的常用知识点总结

Leetcode:349. 两个数组的交集【题解超详细】

Java 【异常】

B - Polycarp‘s Practice

朴素贝叶斯数据分类------

flask中的操作数据库的插件Flask-SQLAlchemy

arrow的使用

【24种设计模式】装饰器模式（Decorator Pattern(Wrapper)）

小程序v-for与key值使用

Qt包含文件不存在问题解决 QNetworkAccessManager

【视频图像篇】FastStone Capture屏幕长截图软件

【C语言】每日一题（杨氏矩阵查找数）

探究SpringWeb对于请求的处理过程

如何使用Google Compute Engine入门指南快速创建和配置您的云虚拟机实例

springMVC中全局异常处理

【Nginx24】Nginx学习：压缩模块Gzip

我的私人笔记（zookeeper分布式安装）

小程序排名优化全攻略

MySQL MHA

Java API速记手册（持续更新ing...）

FANUC机器人电气控制柜内部硬件电路和模块详细介绍

LGFormer：LOCAL TO GLOBAL TRANSFORMER FOR VIDEO BASED 3D HUMAN POSE ESTIMATION

数据结构零基础入门篇（C语言实现）

Hugging News #0904：登陆 AWS Marketplace

Redis Redis的数据结构 - 通用命令 - String类型命令 - Hash类型命令

vue中的几种name属性

一、数据提取：Selectors和Item

二、数据处理：Pipelines

相关文章：