当前位置: 首页 > news >正文

Python爬虫---Scrapy项目的创建及运行

Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架。 可以应用在包括数据挖
掘,信息处理或存储历史数据等一系列的程序中。

1. 安装scrapy:

pip install scrapy

注意:需要安装在python解释器相同的位置,例如:D:\Program Files\Python3.11.4\Scripts

若安装时报错缺少twisted,解决方法:安装twisted合适的版本  twisted下载路径

下载 twisted后,安装twisted:pip install twisted路径

 查看python版本:终端输入python

若报错win32错误,解决方法:pip install pypiwin32

若是仍然报错,可安装anaconda,若使用anaconda,pycharm里的解释器也需要换成anaconda的的路径  Anaconda 安装

(注意:安装anaconda时,安装路径下不能有任何文件,否则可能会导致不能用  )

2.  使用scrapy创建项目:

scrapy startproject 项目名字         (项目名字不能用数字开头,不能包含中文)

项目结构:
spidersinit_.py自定义的爬虫文件.py   ---》由我们自己创建,是实现爬虫核心功能的文件
init__.py
items.py          ---》定义数据结构的地方(爬取的数据有哪些),是一个继承自                scrapy.Item的类
middlewares.py    ---》中间件 代理
pipelines.py      ---》管道文件,里面只有一个类,用于处理下载数据的,后续处理默认是300优先级,值越小优先级越高 (1-10)
settings.py       ---》配置文件 比如: 是否遵守robots协议,user-Agent定义等

3.  创建爬虫文件

在spiders下创建,进入spiders目录: cd .\项目名字\项目名字\spiders

 scripy genspider 爬虫文件的名字  要爬取的网页       (一般情况下不需要添加http协议)

 

4.  运行爬虫程序 

scrapy crawl 爬虫的名字     (名字为程序中的name)

 

 例子:

# spider下的爬虫文件
import scrapyclass TongchengSpider(scrapy.Spider):name = "tongcheng"allowed_domains = ["https://sz.58.com/sou/?key=%E5%89%8D%E7%AB%AF%E5%BC%80%E5%8F%91&classpolicy=classify_E%2Cuuid_YZWJGz6dw5SYe54A6jYeyfiY5J4TPdc8&search_uuid=YZWJGz6dw5SYe54A6jYeyfiY5J4TPdc8&search_type=input"]start_urls = ["https://sz.58.com/sou/?key=%E5%89%8D%E7%AB%AF%E5%BC%80%E5%8F%91&classpolicy=classify_E%2Cuuid_YZWJGz6dw5SYe54A6jYeyfiY5J4TPdc8&search_uuid=YZWJGz6dw5SYe54A6jYeyfiY5J4TPdc8&search_type=input"]def parse(self, response):print("学习scrapy")content = response.text   # 获取的是响应的字符串content1 = response.body  # 获取的是二进制数据# span = response.xpath("xpath语法")  # 可以直接是xpath方法来解析response中的内容span = response.xpath('//div[@id="filter"]/div[@class="tabs"]/a/span')[0]  # xpathprint("=================================================================")print(span.extract())   # 提取seletor对象的data的属性值print(span.extract_first())  # 提取的seletor列表的第一个数据

http://www.lryc.cn/news/277770.html

相关文章:

  • PyTorch: torch.nn 子模块及其在循环神经网络中的应用
  • 【QT】自定义代理类
  • 线程休眠、线程让步、线程优先级相关内容学习笔记
  • paddle指定运行gpu
  • Java异常及网络编程
  • 通过 Elastic Stack 充分利用电信领域生成式 AI 的力量
  • Redis:原理速成+项目实战——Redis实战8(基于Redis的分布式锁及优化)
  • 江山易改本性难移之ZYNQ SDK QSPI固化bug及其解决方法
  • 系列三十六、注解版Spring、SpringMVC配置文件
  • 爬虫你需要知道的:什么是http请求
  • MCU FT61F14x入门
  • 星火大模型——多模态API调用(图像+文本)
  • 计算机基础面试题 |22.精选计算机基础面试题
  • kafka连接失败时springboot项目启动停机问题
  • 【算法题】46. 全排列
  • 可视可交互!在全志H618上用OpenCV读取图像显示到PyQt5窗口上
  • 现代密码学 补充1:两种窃听不可区分实验的区别
  • 多功能号卡推广分销管理系统 流量卡推广分销网站源码-目前市面上最优雅的号卡系统
  • MySQL语法及IDEA使用MySQL大全
  • 分布式系统网关和sentinel
  • 无法访问Bing网站 - 解决方案
  • Spring Boot 自动装配原理
  • golang如何生成csv文件
  • 你真的掌握了“C语言分支循环”吗
  • Apollo计算几何算法(一)
  • 计算机网络、浏览器相关高频面试题
  • 遥感单通道图像保存为彩色图像
  • 如何将字符串转换为整数
  • 如何在Linux上安装使用达芬奇DaVinci-Resolve视频剪辑|附带格式转换脚本
  • FlinkAPI开发之数据合流