当前位置: 首页 > news >正文

scrapy模块的基础使用

scrapy模块是爬虫工作者最常用的一个模块之一,因它有许多好用的模板,和丰富的中间件,深受欢迎。

一,scrapy的安装

可以通过pypi的指引进行安装

在终端内输入以下代码:

pip install scrapy

二,项目的建立

安装程序后,创建自己项目,在终端中输入以下代码

scrapy startproject yourprojectname

运行完成后,在终端中会提示你执行以下两个命令

需要依次执行

cd yourprojectname

创建你的爬虫模板 

scrapy genspider name name.com

name --根目录的名字, name.com --()域名

创建好之后,在pycharm中可以看到以下的目录:

在name.py中编写爬虫项目,name.py文件中会自带以下代码

import scrapyclass NameSpider(scapy.Spider):name = "name"start_urls = [url, url....]def parse(self, response):pass

其中name为爬取数据的名字,自定义。

此外还要加入要爬取的链接列表。

pase方法为爬取数据的逻辑

使用命令来启动爬虫程序(在终端运行以下代码)

scapy crawl name

也可新建一个文件,运行文件来启动爬虫程序,代码如下:

from scrapy import cmdlinecmdline.execute("scapy crawl name".split())

split()方法将其分割,因为在cmdline中是一个数组

也可将爬虫日志写入在文件中,避免输出在终端时,因终端可显示的长度有限,显示不完全。代码如下:

from scrapy import cmdlinecmdline.execute("scapy crawl name --logfile name.log".split())

爬取好的数据可以通过items.py文件中进行配置

将想要的数据进行保存

import scrapyclass HaodaifuItem(scrapy.Item):# define the fields for your item here like:# name = scrapy.Field()

存储的项目通过进入piplines.py文件中(pipelines.py在settings中默认不开启,需要手动开启 )

# Configure item pipelines
# See https://docs.scrapy.org/en/latest/topics/item-pipeline.html
# 项目管道
ITEM_PIPELINES = {"xxx.pipelines.Pipeline": 300,"xxx.pipelines.xxxPipeline":300,
}

pipslines.py文件中的项目名:数值

数值越小,优先级越高,越先启动,数值相同他们的启动顺序将是随机的,无法确定哪一个会先启动。在这种情况下,scrapy将根据实际情况来决定启动顺序。

http://www.lryc.cn/news/377494.html

相关文章:

  • 如何在不降低网络安全防护的前提下,优化pcdn的流量清洗效率?
  • linux发行版CentOS、Debian和Ubuntu的对比
  • WordPress如何删除内存中的缓存?
  • 【XML模版文件参数初始化】
  • Golang | Leetcode Golang题解之第160题相交链表
  • 基于FOC控制器的BLDC无刷直流电机控制系统matlab编程与仿真
  • ffmpeg转换视频格式
  • 设计程序,利用栈实现数值转换
  • QSharedMemory使用详解
  • 中电金信:保险业多项举措共绘数字化转型新篇章
  • Gartner发布2024年人工智能技术成熟度曲线:29项决定人工智能领域发展方向的前沿和趋势性技术
  • 顺势而为:雷军、小米与创业成功的深层思考
  • Java+ffmpeg 合并两个mp4文件
  • 汽车IVI中控开发入门及进阶(三十一):视频知识扫盲
  • 【后端】Java学习笔记(二周目-1)
  • PDF文档翻译软件哪个好?分享5款快速翻译的工具
  • 哪些因素驱动新零售发展?新零售与传统零售、电子商务区别在哪?
  • 使用代理IP常见问题及解答
  • 重磅!鹅厂大牛带你30分钟玩转AI智能结对编程!
  • 研究Redis源码的一些前期准备
  • 用PHP来调用API给自己定制一个“每日新闻”
  • AGI时代,程序员想学习大语言模型(LLM),应该从哪里开始?
  • Vue在表单校验中trigger属性指定何时触发校验规则
  • 【多线程实例】
  • 数据治理在数据提取中的角色:确保数据质量和安全
  • Nuxt快速学习开发 - Nuxt3静态资源Assets
  • 为什么企业需要数据挖掘平台?哪个比较好呢?
  • leetCode-hot100-链表专题
  • 【ai】tx2-nx:配置tritonserver2.17.0-jetpack4.6 环境并运行例子
  • Spring和Spring Boot常用注解介绍及使用