当前位置：首页 > news >正文

scrapy爬虫基础

news 2025/6/25 0:12:20

一、初识

创建项目：

scrapy startproject my_one_project    # 创建项目命令
cd my_one_project                     # 先进去， 后面在里面运行
运行爬虫命令为：scrapy crawl tk

spiders下创建test.py

其中name就是scrapy crawl tk ，运行时用的


# spiders脚本
import scrapyclass TkSpider(scrapy.Spider):name = 'tk'                    # 运行爬虫命令为：scrapy crawl tkstart_urls = ['https://www.baidu.com/']def parse(self, response, **kwargs):print(1111)print(response.text)

运行时：

[scrapy.downloadermiddlewares.robotstxt] DEBUG: Forbidden by robots.txt: <GET https://www.baidu.com/>

so所以：

settings.py中

访问百度地址就设置这个
ROBOTSTXT_OBEY = False不想看那么多东西，可以设置这个
LOG_LEVEL = 'ERROR'   #分别为 CRITICAL< ERROR < WARNING < INFO < DEBUG  (设置为 ERROR ,就不会展示INFO)

再次运行

二、内部如何请求的

在执行parse前，实际上是执行了 start_requests的，在这里面实现了请求。如下图1中的内容写了或者不写都是一样的效果。

但是写的话，可以在start_requests方法中，

发出请求之前执行一些额外的操作。如放一个cookie值、headers来请求

传递了cookie请求后就能获取响应了
请求发出之后，如获取本次请求使用的header

查看全文

http://www.lryc.cn/news/447921.html

利用H5无插件播放RTSP流的实现方案

CSS文本格式化

python的 __name__和__doc__属性

Go语言中的Mutex实现探讨

第五届计算机科学与管理科技国际学术会议(ICCSMT 2024)

【machine learning-13-线性回归的向量化】

【CSS|第2期】探索HTML与CSS中的文档流：从自然流到高级布局技巧

MATLAB绘图基础9：多变量图形绘制

JBOSS中间件漏洞复现

每日论文6—16ISCAS一种新型低电流失配和变化电流转向电荷泵

计算机视觉实战项目4（图像分类+目标检测+目标跟踪+姿态识别+车道线识别+车牌识别+无人机检测+A*路径规划+单目测距与测速+行人车辆计数等）

【Spring Cloud】Spring Cloud 概述

猫头虎带你解决：error Error: certificate has expired

盘点2024年4款高效率的语音转文字工具。

Java后端面试题+下一篇答案+实况场景题

完美解决vant浮动气泡+弹出菜单

SpringSecurity -- 入门使用

C语言习题~day33

作业报告┭┮﹏┭┮（Android反调试）

在 Delphi BSD11中安装 DCU 格式的第三方组件库

综合题第二题（路由器的配置）

人工智能概览

一、初识

二、内部如何请求的

相关文章：