当前位置: 首页 > news >正文

部署Gerapy

1.Gerapy 是什么?
Gerapy 是一款基于 Python 3 的分布式爬虫管理框架,它旨在简化和优化分布式爬虫的部署、管理和监控过程。
2.作用与功能?
2.1分布式管理: Gerapy 允许用户在多台机器上部署和管理Scrapy爬虫,实现爬虫任务的分布式处理,提高数据抓取效率和系统稳定性。

2.2Web界面操作: 提供了一个直观的Web界面,用户可以通过浏览器进行项目部署、爬虫任务的启动、停止、监控以及结果查看,无需直接操作命令行,使得管理更加简便。

2.3项目部署简化: 简化了Scrapy项目的部署流程,用户可以直接通过Gerapy的界面上传项目代码,并进行打包部署,减少了手动配置服务器的工作量。

2.4实时监控与日志查看: 实时展示爬虫运行状态和日志信息,便于快速定位和解决问题。

2.5任务调度与队列管理: 利用Scrapy-Redis实现任务的分布式调度,支持优先级设定,管理爬虫任务队列。

2.6代码编辑与版本控制: 在某些版本或配置中,可能支持在线编辑爬虫代码,便于快速迭代和测试。

2.7主机与爬虫实例管理: 统一管理多台主机上的Scrapyd服务,轻松添加、移除或查看各个主机上的爬虫实例。

3.安装过程:
3.1安装gerapy

pip install gerapy

在这里插入图片描述
3.2校验gerapy 是否安装成功

gerapy

在这里插入图片描述
3.3初始化gerapy

gerapy init

在这里插入图片描述
生成的文件夹
在这里插入图片描述
3.4进入scrapyd,执行gerapy数据化的初始化,建立相关的数据库表。

F:\gerapy>cd gerapy
F:\gerapy\gerapy>gerapy migrate

在这里插入图片描述
3.5开启服务:gerapy runserver

F:\gerapy\gerapy>gerapy runserver

在这里插入图片描述
访问:http://127.0.0.1:8000/#/login 需要有账号密码
在这里插入图片描述

3.6设置账号密码并重启gerapy:

F:\gerapy\gerapy>
F:\gerapy\gerapy>gerapy createsuperuser
Username (leave blank to use 'admin'): admin
Email address: xxxxxxxxxx
Password:
Password (again):
The password is too similar to the username.
This password is too short. It must contain at least 8 characters.
This password is too common.
Bypass password validation and create user anyway? [y/N]: y
Superuser created successfully.

在这里插入图片描述
效果:
在这里插入图片描述
补充:
添加主机管理,填写对应的信息(这里需要配合 scrapyd 使用)

scrapy 配置可参考:https://blog.csdn.net/weixin_42883164/article/details/138574304

在这里插入图片描述
在这里插入图片描述
执行效果
在这里插入图片描述
任务管理
在这里插入图片描述
在这里插入图片描述

http://www.lryc.cn/news/347385.html

相关文章:

  • Github Benefits 学生认证/学生包 新版申请指南
  • 基于单片机的宠物智能投喂系统研究
  • Linux-笔记 常用命令
  • MySQL中,关于日期类型的那些事儿,你知道哪些?
  • 【Chrome实用命令笔记】
  • 【数据库】数据库事务原理
  • LeetCode 106.从中序与后序遍历序列构造二叉树
  • Python中的compile()函数,动态编译代码的艺术
  • 【考研数学】汤家凤“免单“数学题被吐槽‘太难’,老汤回应「怎么还有脸笑」,网友:这些题有毒!
  • 在另外一个页面,让另外一个页面弹框显示操作(调佣公共的弹框)
  • 如何利用IPIDEA代理IP优化数据采集效率?
  • Rpcx (一):详解【介绍、基础示例 demo】
  • 对数据进行标准化和归一化
  • 【从零开始学架构 架构基础】二 架构设计的复杂度来源:高性能复杂度来源
  • OpenHarmony 实战开发——3.1 Release + Linux 原厂内核Launcher起不来问题分析报告
  • 小猫咪邮件在线发送系统源码,支持添加附件
  • Django REST framework(DRF)是什么?
  • 用hMailServer+roundcubemail+宝塔安装配置一个自己的邮箱服务
  • ctfshow 框架复现
  • 【Linux-IMX6ULL-DDR3简介测试-RGBLCD控制原理】
  • 贪心算法-----柠檬水找零
  • MySQL技能树学习
  • java 动态代理详解
  • Web路径专题
  • 解决vue3项目打包后部署后某些静态资源图片不加载问题
  • 传感网应用开发教程--AT指令访问新大陆云平台(ESP8266模块+物联网云+TCP)
  • 项目提交到空的git仓库流程
  • 【Python】在Windows Server上部署Flask后端服务器
  • 机器学习作业4——朴素贝叶斯分类器
  • BUU-[GXYCTF2019]Ping Ping Ping