当前位置：首页 > news >正文

Python爬虫——scrapy_基本使用

news 2025/7/21 6:50:54

安装scrapy

pip install scrapy

创建scrapy项目，需要在终端里创建
注意：项目的名字开头不能是数字，也不能包含中文

scrapy startproject 项目名称
示例：
scrapy startproject scra_baidu_36

创建好后的文件
在这里插入图片描述
3. 创建爬虫文件：
要在spider文件里面创建爬虫文件
先在终端中cd到spider文件里
创建爬虫文件

scrapy genspider 爬虫文件名 要爬取的网页
示例：
scrapy genspider baidu http://www.baiud.com

创建的爬虫文件内容：
在这里插入图片描述
name 爬虫的名字，用于运行爬虫的时候使用的值
allowed_domains 允许访问的域名
start_urls 起始url地址，指的是第一次要访问的域名
parse 是执行了start_urls之后执行的方法，方法中的response就是返回的那个对象

运行爬虫文件
写一个print()

在终端输入

scrapy crawl 爬虫的名字
示例：
scrapy crawl baidu

但是运行完并没有给我们返回任何数据
在这里插入图片描述
这是因为有robots协议
解决办法：只需要在settings.py文件里把 ROBOTSTXT_OBEY = True 给注释掉就可以了(或者把True改成False也可以)

然后再重新运行一遍就可以获取到数据了

查看全文

http://www.lryc.cn/news/125920.html

30 | 中国高校数据分析

开源低代码平台Openblocks

每日汇评：黄金在 200 日移动平均线附近似乎很脆弱，关注美国零售销售

DFT笔记 DC/AC mode与Func

10 - 把间隔的几个commit整理成1个

关于 Eclipse 的一场 “三角关系”

koa 使用 Mongoose 查询数据

前后端分离------后端创建笔记（10）用户修改

K8S系列文章之 Docker安装使用Kafka

RH850从0搭建Autosar开发环境【24】- Davinci Configurator之DEM模块配置详解(上)

uniapp封装接口

Android布局【TableLayout】

C/C++中static关键字详解

Memory Analyzer(MAT)分析内存

计算机网络面试题

【LeetCode75】第三十题奇偶链表

docker 学习--03 环境安装（本人使用的win10 Linux也是在win10下模拟）

【代码质量】认知复杂度（COGNITIVE COMPLEXITY）一种衡量可理解性的新方法

相关文章：