当前位置：首页 > news >正文

scrapy常用命令总结

news 2025/8/17 1:03:00

1.创建scrapy项目的命令：
scrapy startproject <项目名字>
示例：
scrapy startproject myspider

2.通过命令创建出爬虫文件，爬虫文件为主要的代码文件，通常一个网站的爬取动作都会在爬虫文件中进行编写。

命令：
在项目路径下执行:
scrapy genspider <爬虫名字> <允许爬取的域名>

爬虫名字: 作为爬虫运行时的参数
允许爬取的域名: 为对于爬虫设置的爬取范围，设置之后用于过滤要爬取的url，如果爬取的url与允许的域不通则被过滤掉。

示例：

cd myspider 这一步是进入当前项目路径

scrapy genspider lianjia lianjia.com 再创建爬虫文件

item : 定制你要抓取的字段比方说你要去爬取一个网站里面有标题用name变量去接收就先在item里面定制好接收的字段
setting：放的是你爬虫的最基本信息包括爬虫的初始化伪装也需要在这里面去完成
pipelines:保存数据 --不管你是要保存数据到Excel里面或者数据里面都需要在这个文件抒写
middlewares:爬虫中间件

运行scrapy
命令：在项目目录下执行scrapy crawl <爬虫名字>

示例：scrapy crawl 爬虫名字 --nolog 忽略日志信息

7.1 也可爬虫项目中执行命令
每次我们写完代码进行测试的时候，都要去安装目录执行，所以为了方便，我们要写一个再爬虫项目根目录中创建.py结尾的文件，执行以下指令:

from scrapy import cmdline
cmdline.execute([‘scrapy’,‘crawl’,‘lianjia’])

#.extract()提取内容方法

打开Scrapy Shel
例如：
cd mySpider 进入项目路径
scrapy shell https://cs.lianjia.com/zufang/ #想要测试的url

http://www.lryc.cn/news/346402.html

相关文章：

【Linux系列】file命令

基于php+mysql+html简单图书管理系统

【Python系列】Python中列表属性提取

使用MATLAB/Simulink点亮STM32开发板LED灯

HDFS- DataNode磁盘扩缩容

5.10.3 使用 Transformer 进行端到端对象检测（DETR）

前端开发指导

三方库的调用方法

如何使用提示测试为LLMs构建单元测试?

目前市面上堡垒机厂家有哪些？会帮忙部署吗？

【备忘】在使用php-ffmpeg/php-ffmpeg开发时遇到Unable to load FFProbe时如何处理？

REFORMER: 更高效的TRANSFORMER模型

视频合并有妙招：视频剪辑一键操作，批量嵌套合并的必学技巧

安装SQL Server详细教程_sql server安装教程

Git那些事-如何撤销暂存区的文件

记一次SQL和程序查询结果不一致的问题

Python 实战之量化交易

跟我学C++中级篇——封装对象的实践

iOS面试题链接汇总

TEINet: Towards an Efficient Architecture for Video Recognition 论文阅读

Navicat Data Modeler Ess for Mac：强大的数据库建模设计软件

C# 判断Access数据库中表是否存在，表中某个字段是否存在

【C++】学习笔记——模板进阶

JAVA系列小白入门参考资料接口

日报表定时任务优化历程

excel表格里，可以把百分号放在数字前面吗?

应用案例 | 商业电气承包商借助Softing NetXpert XG2节省网络验证时间

【JAVA语言-第20话】多线程详细解析（二）——线程安全，非线程安全的集合转换成线程安全