当前位置: 首页 > news >正文

Python爬虫——scrapy_基本使用

  1. 安装scrapy
pip install scrapy
  1. 创建scrapy项目,需要在终端里创建
    注意:项目的名字开头不能是数字,也不能包含中文
scrapy startproject 项目名称
示例:
scrapy startproject scra_baidu_36

创建好后的文件
在这里插入图片描述
3. 创建爬虫文件:
要在spider文件里面创建爬虫文件
先在终端中cd到spider文件里
创建爬虫文件

scrapy genspider 爬虫文件名 要爬取的网页
示例:
scrapy genspider baidu http://www.baiud.com

创建的爬虫文件内容:
在这里插入图片描述
name 爬虫的名字,用于运行爬虫的时候使用的值
allowed_domains 允许访问的域名
start_urls 起始url地址,指的是第一次要访问的域名
parse 是执行了start_urls之后执行的方法,方法中的response就是返回的那个对象

  1. 运行爬虫文件
    写一个print()
    在这里插入图片描述

在终端输入

scrapy crawl 爬虫的名字
示例:
scrapy crawl baidu

但是运行完并没有给我们返回任何数据
在这里插入图片描述
这是因为有robots协议
解决办法:只需要在settings.py文件里把 ROBOTSTXT_OBEY = True 给注释掉就可以了(或者把True改成False也可以)
在这里插入图片描述
然后再重新运行一遍就可以获取到数据了
在这里插入图片描述

http://www.lryc.cn/news/125920.html

相关文章:

  • 30 | 中国高校数据分析
  • 开源低代码平台Openblocks
  • 每日汇评:黄金在 200 日移动平均线附近似乎很脆弱,关注美国零售销售
  • DFT笔记 DC/AC mode与Func
  • docker核心操作
  • 《电路》基础知识入门学习笔记
  • 什么是P2P?
  • matlab RANSAC拟合多项式曲线
  • 微信小程序nfc指令异常记录
  • 10 - 把间隔的几个commit整理成1个
  • 关于 Eclipse 的一场 “三角关系”
  • koa 使用 Mongoose 查询数据
  • 前后端分离------后端创建笔记(10)用户修改
  • K8S系列文章之 Docker安装使用Kafka
  • js如何获取字符串大小是几M
  • 服务器托管中1U是什么意思?
  • Golang自定义类型与类型别名
  • golang环境搭建
  • 一套优质的MES系统,应该具备哪些特质?
  • 常见的路由协议之RIP协议与OSPF协议
  • 使用ip2region获取客户端地区
  • RH850从0搭建Autosar开发环境【24】- Davinci Configurator之DEM模块配置详解(上)
  • uniapp封装接口
  • Android布局【TableLayout】
  • C/C++中static关键字详解
  • Memory Analyzer(MAT)分析内存
  • 计算机网络面试题
  • 【LeetCode75】第三十题 奇偶链表
  • docker 学习--03 环境安装(本人使用的win10 Linux也是在win10下模拟)
  • 【代码质量】认知复杂度(COGNITIVE COMPLEXITY)一种衡量可理解性的新方法