当前位置: 首页 > news >正文

scrapy常用命令总结

1.创建scrapy项目的命令:
    scrapy startproject <项目名字>
示例:
    scrapy startproject myspider

2.通过命令创建出爬虫文件,爬虫文件为主要的代码文件,通常一个网站的爬取动作都会在爬虫文件中进行编写。

命令:
    在项目路径下执行:
    scrapy genspider <爬虫名字> <允许爬取的域名>

爬虫名字: 作为爬虫运行时的参数
允许爬取的域名: 为对于爬虫设置的爬取范围,设置之后用于过滤要爬取的url,如果爬取的url与允许的域不通则被过滤掉。

示例:

cd myspider 这一步是进入当前项目路径

scrapy genspider lianjia lianjia.com 再创建爬虫文件

item : 定制你要抓取的字段 比方说你要去爬取一个网站 里面有标题 用name变量去接收 就先在item里面定制好接收的字段
setting:放的是你爬虫的最基本信息 包括爬虫的初始化伪装 也需要在这里面去完成
pipelines:保存数据 --不管你是要保存数据到Excel里面或者数据里面都需要在这个文件抒写
middlewares:爬虫中间件

  1. 运行scrapy
    命令:在项目目录下执行scrapy crawl <爬虫名字>

示例:scrapy crawl 爬虫名字 --nolog 忽略日志信息

7.1 也可爬虫项目中执行命令
每次我们写完代码进行测试的时候,都要去安装目录执行,所以为了方便,我们要写一个再爬虫项目根目录中创建.py结尾的文件,执行以下指令:

from scrapy import cmdline
cmdline.execute([‘scrapy’,‘crawl’,‘lianjia’])

#.extract()提取内容方法

打开Scrapy Shel
例如:
cd mySpider 进入项目路径
scrapy shell https://cs.lianjia.com/zufang/ #想要测试的url

http://www.lryc.cn/news/346402.html

相关文章:

  • 【Linux系列】file命令
  • 基于php+mysql+html简单图书管理系统
  • 【Python系列】Python中列表属性提取
  • 使用MATLAB/Simulink点亮STM32开发板LED灯
  • HDFS- DataNode磁盘扩缩容
  • 5.10.3 使用 Transformer 进行端到端对象检测(DETR)
  • 前端开发指导
  • 三方库的调用方法
  • 如何使用提示测试为LLMs构建单元测试?
  • 目前市面上堡垒机厂家有哪些?会帮忙部署吗?
  • 【备忘】在使用php-ffmpeg/php-ffmpeg开发时遇到Unable to load FFProbe时如何处理?
  • REFORMER: 更高效的TRANSFORMER模型
  • 视频合并有妙招:视频剪辑一键操作,批量嵌套合并的必学技巧
  • 安装SQL Server详细教程_sql server安装教程
  • Git那些事-如何撤销暂存区的文件
  • 记一次SQL和程序查询结果不一致的问题
  • Python 实战之量化交易
  • 跟我学C++中级篇——封装对象的实践
  • iOS面试题链接汇总
  • TEINet: Towards an Efficient Architecture for Video Recognition 论文阅读
  • Navicat Data Modeler Ess for Mac:强大的数据库建模设计软件
  • NSS刷题
  • CUDA专项
  • C# 判断Access数据库中表是否存在,表中某个字段是否存在
  • 【C++】学习笔记——模板进阶
  • JAVA系列 小白入门参考资料 接口
  • 日报表定时任务优化历程
  • excel表格里,可以把百分号放在数字前面吗?
  • 应用案例 | 商业电气承包商借助Softing NetXpert XG2节省网络验证时间
  • 【JAVA语言-第20话】多线程详细解析(二)——线程安全,非线程安全的集合转换成线程安全