爬虫可视化管理：scrapyd、Gerapy、Scrapydweb、spider-admin-pro、crawllab、feaplat、XXL-JOB

1、scrapyd

大多数现有的平台都依赖于 Scrapyd，这将选择限制在 python 和 scrapy 之间。当然 scrapy 是一个很棒的网络抓取框架，但是它不能做所有的事情。

对于重度 scrapy 爬虫依赖的、又不想折腾的开发者，可以考虑 Scrapydweb；而对于有各种类型的、复杂技术结构的爬虫开发者来说，可以考虑更灵活的 Crawlab。当然，不是说 Crawlab 对 scrapy 支持不友好，Crawlab 同样可以很好的集成 scrapy，也很容易使用，足够通用，可以适应任何语言和框架中的蜘蛛。它还有一个漂亮的前端界面，用户可以更容易地管理蜘蛛。

scrapyd

Scrapyd 是一个运行 Scrapy 爬虫程序的服务。

项目地址：https://github.com/scrapy/scrapyd
文档： https://scrapyd.readthedocs.io/
环境测试： http://localhost:6800/

ScrapydAPI

python 封装的 Scrapyd 。安装：pip install python-scrapyd-api
项目地址：https://github.com/djm/python-scrapyd-api

from scrapyd_api import ScrapydAPI
scrapyd = ScrapydAPI('http://localhost:6800')

2、Gerapy

Gerapy 是由崔庆才创建的。安装部署简单。漂亮的UI界面。支持节点管理、代码编辑、可配置抓取规则等。只能运行 scrapy 爬虫，不支持 Scrapy 以外的其他爬虫。

Gerapy 只是分布式爬虫管理框架，需要启动 scrapyd 运行后配置进行更多操作。gerapy 和 scrapyd 的关系就是：通过 gerapy 配置 scrapyd 后，不使用命令，直接通过图形化界面开启爬虫。

Scrapy+Scrapy-redis+Scrapyd+Gerapy 分布式爬虫框架整合

Scrapy：基于 Twisted 的异步IO的爬虫框架，Scrapy 框架是异步加多线程。
Scrapy-redis：Scrapy-redis 是基于 scrapy 的分布式爬虫，提供了 Scrapy 分布式的队列，调度器，去重等等功能。
Scrapyd：分布式爬虫完成之后，接下来就是代码部署，如果有很多主机，就要逐个登录服务器进行部署，万一代码有所改动..........可以想象，这个过程是多么繁琐。Scrapyd是专门用来进行分布式部署的工具，它提供 HTTP 接口来帮助我们部署，启动，停止，删除爬虫程序，利用它可以很方便的完成 Scrapy 爬虫项目的部署。Scrapyd 工具是在命令行进行操作。
Gerapy：基于 Scrapy、Scrapyd、Scrapyd-Client、Scrapyd-API、Django 和 Vue.js 的分布式爬虫管理框架。Gerapy 将命令行和图形界面进行了对接，只需要点击按钮就可完成部署，启动，停止，删除的操作。

文档

：https://docs.gerapy.com/en/latest/
：https://github.com/Gerapy/Docs

安装命令：pip install gerapy，安装成功后，会获得一个新的命令：gerapy

创建一个项目

命令：gerapy init

执行成功后会在当前目录下生成一个 gerapy 文件夹，进入gerapy文件夹，会发现一个空的projects文件夹和 logs 文件夹

命令：gerapy init <workspace> 也可以指定工作目录

初始化数据库

命令：gerapy migrate

生成一个SQLite数据库，用于保存各个主机的配置信息等。

创建用户

Gerapy 默认打开了登录身份验证，因此在启动服务之前需要设置管理员用户。可以直接使用初始管理员的命令快速创建管理员管理员。密码也是管理员。命令：gerapy initadmin

如果不想直接创建管理员用户，也可以手动创建管理员用户：gerapy createsuperuser

此时 Gerapy 会提示我们输入用户名、电子邮件、密码等，然后使用该用户登录 Gerapy。

启动 Gerapy 服务并访问

启动 Gerapy 服务

：gerapy runserver host:port (默认是端口8000)
：gerapy runserver 0.0.0.0:8000 使用公共主机和端口 8000 运行。

访问：

：http://127.0.0.1:8000 进入 Gerapy 管理页面。
：http://localhost:8000/admin 也可以直接进入管理后端。

管理 "主机、项目、任务"，在主机管理中添加 scrapyd 运行的地址和端口。在 projects 文件夹中，放入你的 Scrapy 项目。

3、Scrapydweb

github：https://github.com/my8100/scrapydweb

漂亮的UI界面，内置Scrapy日志解析器，任务执行的统计数据和图表，支持节点管理，cron作业，邮件通知。全功能蜘蛛管理平台。只能运行 scrapy 爬虫，不支持 Scrapy 以外的其他爬虫。

功能特性：

Scrapyd 集群管理
Scrapy 日志分析
支持所有 Scrapyd API
web UI 支持 Basic Auth

pip install scrapydweb
$ scrapydweb -h # 初始化
$ scrapydweb # 启动
管理页面：http://127.0.0.1:5000

4、spider-admin-pro

一个集爬虫 Scrapy+Scrapyd 爬虫项目查看和爬虫任务定时调度的可视化管理工具。

5、crawllab、crawlab-lite

Crawlab是一个非常灵活的爬虫管理平台，可以运行 Python、Nodejs、Java、PHP、Go 写的爬虫，适用于所有编程语言和框架。漂亮的UI界面。自然地支持分布式蜘蛛。支持蜘蛛管理，任务管理，cron作业，结果导出，分析，通知，可配置蜘蛛，在线代码编辑器等。而且功能比较齐全，不限于Scrapy，

crawllab

基于Golang的分布式爬虫管理平台，支持多种编程语言以及多种爬虫框架.

crawllab 中文文档：https://docs.crawlab.cn/zh/guide/

github：https://github.com/crawlab-team/crawlab

官网在线演示

演示地址：https://demo-pro.crawlab.cn/#/login

用户名、密码：admin/admin

crawlab-lite

轻量版 Crawlab 爬虫管理平台

github：https://github.com/crawlab-team/crawlab-lite

6、feaplat

feaplat 命名源于 feapder 与 platform 的缩写，是一个爬虫管理系统。

免费版20个任务，超出额度时，需购买授权码，在授权有效期内不限额度，可换绑服务器

特性

支持部署任何程序，包括不限于feapder、scrapy
支持集群管理，部署分布式爬虫可一键扩展进程数
支持部署服务，且可自动实现服务负载均衡
支持程序异常报警、重启、保活
支持监控，监控内容可自定义
支持4种定时调度模式
自动从git仓库拉取最新的代码运行，支持指定分支
支持多人协同
支持浏览器渲染，支持有头模式。浏览器支持playwright、selenium
支持弹性伸缩
支持自定义worker镜像，如自定义java的运行环境、node运行环境等，即根据自己的需求自定义（feaplat分为master-调度端和worker-运行任务端）
docker一键部署，架设在docker swarm集群上

功能概览

1. 项目管理
2. 任务管理
3. 任务实例
4. 爬虫监控
5. 报警

7、XXL-JOB (分布式任务调度平台)

轻量级分布式任务调度平台 XXL-JOB
github 地址及中文文档地址：https://github.com/xuxueli/xxl-job

中文文档
English Documentation

XXL-JOB是一个轻量级分布式任务调度平台，其核心设计目标是开发迅速、学习简单、轻量级、易扩展。现已开放源代码并接入多家公司线上产品线，开箱即用。

1、简单：支持通过Web页面对任务进行CRUD操作，操作简单，一分钟上手；
2、动态：支持动态修改任务状态、启动/停止任务，以及终止运行中任务，即时生效；
3、调度中心HA（中心式）：调度采用中心式设计，“调度中心”自研调度组件并支持集群部署，可保证调度中心HA；
4、执行器HA（分布式）：任务分布式执行，任务"执行器"支持集群部署，可保证任务执行HA；
5、注册中心: 执行器会周期性自动注册任务, 调度中心将会自动发现注册的任务并触发执行。同时，也支持手动录入执行器地址；
6、弹性扩容缩容：一旦有新执行器机器上线或者下线，下次调度时将会重新分配任务；
7、触发策略：提供丰富的任务触发策略，包括：Cron触发、固定间隔触发、固定延时触发、API（事件）触发、人工触发、父子任务触发；
8、调度过期策略：调度中心错过调度时间的补偿处理策略，包括：忽略、立即补偿触发一次等；
9、阻塞处理策略：调度过于密集执行器来不及处理时的处理策略，策略包括：单机串行（默认）、丢弃后续调度、覆盖之前调度；
10、任务超时控制：支持自定义任务超时时间，任务运行超时将会主动中断任务；
11、任务失败重试：支持自定义任务失败重试次数，当任务失败时将会按照预设的失败重试次数主动进行重试；其中分片任务支持分片粒度的失败重试；
12、任务失败告警；默认提供邮件方式失败告警，同时预留扩展接口，可方便的扩展短信、钉钉等告警方式；
13、路由策略：执行器集群部署时提供丰富的路由策略，包括：第一个、最后一个、轮询、随机、一致性HASH、最不经常使用、最近最久未使用、故障转移、忙碌转移等；
14、分片广播任务：执行器集群部署时，任务路由策略选择"分片广播"情况下，一次任务调度将会广播触发集群中所有执行器执行一次任务，可根据分片参数开发分片任务；
15、动态分片：分片广播任务以执行器为维度进行分片，支持动态扩容执行器集群从而动态增加分片数量，协同进行业务处理；在进行大数据量业务操作时可显著提升任务处理能力和速度。
16、故障转移：任务路由策略选择"故障转移"情况下，如果执行器集群中某一台机器故障，将会自动Failover切换到一台正常的执行器发送调度请求。
17、任务进度监控：支持实时监控任务进度；
18、Rolling实时日志：支持在线查看调度结果，并且支持以Rolling方式实时查看执行器输出的完整的执行日志；
19、GLUE：提供Web IDE，支持在线开发任务逻辑代码，动态发布，实时编译生效，省略部署上线的过程。支持30个版本的历史版本回溯。
20、脚本任务：支持以GLUE模式开发和运行脚本任务，包括Shell、Python、NodeJS、PHP、PowerShell等类型脚本;
21、命令行任务：原生提供通用命令行任务Handler（Bean任务，"CommandJobHandler"）；业务方只需要提供命令行即可；
22、任务依赖：支持配置子任务依赖，当父任务执行结束且执行成功后将会主动触发一次子任务的执行, 多个子任务用逗号分隔；
23、一致性：“调度中心”通过DB锁保证集群分布式调度的一致性, 一次任务调度只会触发一次执行；
24、自定义任务参数：支持在线配置调度任务入参，即时生效；
25、调度线程池：调度系统多线程触发调度运行，确保调度精确执行，不被堵塞；
26、数据加密：调度中心和执行器之间的通讯进行数据加密，提升调度信息安全性；
27、邮件报警：任务失败时支持邮件报警，支持配置多邮件地址群发报警邮件；
28、推送maven中央仓库: 将会把最新稳定版推送到maven中央仓库, 方便用户接入和使用;
29、运行报表：支持实时查看运行数据，如任务数量、调度次数、执行器数量等；以及调度报表，如调度日期分布图，调度成功分布图等；
30、全异步：任务调度流程全异步化设计实现，如异步调度、异步运行、异步回调等，有效对密集调度进行流量削峰，理论上支持任意时长任务的运行；
31、跨语言：调度中心与执行器提供语言无关的 RESTful API 服务，第三方任意语言可据此对接调度中心或者实现执行器。除此之外，还提供了 “多任务模式”和“httpJobHandler”等其他跨语言方案；
32、国际化：调度中心支持国际化设置，提供中文、英文两种可选语言，默认为中文；
33、容器化：提供官方docker镜像，并实时更新推送dockerhub，进一步实现产品开箱即用；
34、线程池隔离：调度线程池进行隔离拆分，慢任务自动降级进入"Slow"线程池，避免耗尽调度线程，提高系统稳定性；
35、用户管理：支持在线管理系统用户，存在管理员、普通用户两种角色；
36、权限控制：执行器维度进行权限控制，管理员拥有全量权限，普通用户需要分配执行器权限后才允许相关操作；