当前位置: 首页 > news >正文

爬虫scrapy库精简使用大全

一、基本命令

创建项目

scrpay startproject myapp

创建爬虫文件

scrapy genspider spider_name "https://www.baidu.com"

运行爬虫文件

scrapy crawl spider_name

一、使用代理ip

打开中间件middlewares.py,增加以下代码

class ProxyMiddleware:def process_request(self, request, spider):# ip = random.choice(self.ip)request.meta['Proxy'] = "http://127.0.0.1:7890"

打开setting.py激活上面增加的类

DOWNLOADER_MIDDLEWARES = {'myproject.middlewares.ProxyMiddleware': 543,
}
http://www.lryc.cn/news/390720.html

相关文章:

  • Qt - 如何在新线程 (QThread)中使用一个进程 (QProcess)?
  • Qt绘制多线段
  • 去中心化革命:探索区块链技术的前沿
  • 2024年湖南省各市科小申报时间(科技型中小企业申报流程、条件、好处)新政
  • 【JD-GUI】MacOS 中使用Java反编译工具JD-GUI
  • C++:求梯形面积
  • 学会python——在excel中写入数据(python实例十三)
  • Stable Diffusion【基础篇】:降噪强度(denoising strength)
  • 【Python】语法入门
  • 匠心独运:红酒与手工艺的很好结合
  • 第20章 Mac+VSCode配置C++环境
  • FactoryBean 原理简介
  • Redis中hash类型的操作命令(命令的语法、返回值、时间复杂度、注意事项、操作演示)
  • UE5基本操作(二)
  • React Navigation 和 Expo Router
  • 如何使用python网络爬虫批量获取公共资源数据教程?
  • 常见位运算总结
  • 自动化任务工具 -- zTasker v1.94 绿色版
  • mybatis mapper.xml 比较运算符(大于|小于|等于)的写法: 转义和<![CDATA[]]>
  • UE5的基本操作
  • C++ 实现学生成绩管理系统
  • Elasticsearch 第四期:搜索和过滤
  • 力扣1124.表现良好的最长时间段
  • 算法训练营day67
  • 人工智能--图像语义分割
  • fl studio20和21用哪一个好?FL-Chan from FL Studio欣赏
  • OpenCV直方图计算函数calcHist的使用
  • 09 docker 安装tomcat 详解
  • 44.实现管理HOOK点的链表对象
  • Unity小知识