当前位置: 首页 > news >正文

scrapy爬虫基础

一、初识

创建项目:

scrapy startproject my_one_project    # 创建项目命令
cd my_one_project                     # 先进去, 后面在里面运行
运行爬虫命令为:scrapy crawl tk

spiders下创建test.py 

        其中name就是scrapy crawl tk ,运行时用的


# spiders脚本
import scrapyclass TkSpider(scrapy.Spider):name = 'tk'                    # 运行爬虫命令为:scrapy crawl tkstart_urls = ['https://www.baidu.com/']def parse(self, response, **kwargs):print(1111)print(response.text)

运行时:

[scrapy.downloadermiddlewares.robotstxt] DEBUG: Forbidden by robots.txt: <GET https://www.baidu.com/>

so所以:

settings.py中

访问百度地址就设置这个
ROBOTSTXT_OBEY = False不想看那么多东西,可以设置这个
LOG_LEVEL = 'ERROR'   #分别为 CRITICAL< ERROR < WARNING < INFO < DEBUG  (设置为 ERROR ,就不会展示INFO)

再次运行


二、内部如何请求的

在执行parse前,实际上是执行了 start_requests的,在这里面实现了请求。如下图1中的内容写了或者不写都是一样的效果。

 但是写的话,可以在start_requests方法中,

  1. 发出请求之前执行一些额外的操作。如放一个cookie值、headers来请求
    传递了cookie请求后就能获取响应了
  2. 请求发出之后,如获取本次请求使用的header 
http://www.lryc.cn/news/447921.html

相关文章:

  • 利用H5无插件播放RTSP流的实现方案
  • CSS文本格式化
  • python的 __name__和__doc__属性
  • Go语言中的Mutex实现探讨
  • 第五届计算机科学与管理科技国际学术会议(ICCSMT 2024)
  • 【machine learning-13-线性回归的向量化】
  • 【CSS|第2期】探索HTML与CSS中的文档流:从自然流到高级布局技巧
  • MATLAB绘图基础9:多变量图形绘制
  • JBOSS中间件漏洞复现
  • 每日论文6—16ISCAS一种新型低电流失配和变化电流转向电荷泵
  • 低代码开发平台:未来五大发展趋势预测
  • 国内AI大模型,这篇文章说透了
  • 3.4 爬虫实战-爬去智联招聘职位信息
  • Java 之注解详解
  • 计算机视觉实战项目4(图像分类+目标检测+目标跟踪+姿态识别+车道线识别+车牌识别+无人机检测+A*路径规划+单目测距与测速+行人车辆计数等)
  • 【Spring Cloud】Spring Cloud 概述
  • 猫头虎带你解决:error Error: certificate has expired
  • 盘点2024年4款高效率的语音转文字工具。
  • 记录Mac编译Android源码踩过的坑
  • C++ 数据结构算法细节相关
  • 【HTML5】html5开篇基础(1)
  • C#自定义曲线绘图面板
  • Java后端面试题+下一篇答案+实况场景题
  • 完美解决vant浮动气泡+弹出菜单
  • SpringSecurity -- 入门使用
  • C语言习题~day33
  • 作业报告┭┮﹏┭┮(Android反调试)
  • 在 Delphi BSD11中安装 DCU 格式的第三方组件库
  • 综合题第二题(路由器的配置)
  • 人工智能概览