基于Scrapyd与Gerapy部署scrapy爬虫方案【可用于分布式爬虫部署】

news2025/3/14 3:09:13

scrapyd部署爬虫

Scrapyd 是一个基于 Scrapy 的开源项目,它提供了一个简单的方式来部署、运行和监控 Scrapy 爬虫。它是一个用于集成 Scrapy 爬虫到分布式架构中的工具,允许您在分布式环境中运行爬虫,并提供了一组 Web API,用于管理和监控爬虫的部署和运行。
Scrapyd 的主要功能和特点包括:

  1. 部署爬虫: Scrapyd 允许用户将 Scrapy 爬虫部署到远程服务器,而不必手动在每台服务器上安装和配置爬虫。
  2. 运行爬虫: 您可以使用 Scrapyd 启动、停止和监控远程服务器上的爬虫。
  3. Web API: Scrapyd 提供了一组 Web API,使您能够通过 HTTP 请求进行爬虫管理和监控,包括部署新版本、运行爬虫、检查运行状态等。

Scrapyd 对于需要在分布式环境中运行 Scrapy 爬虫的项目非常有用,因为它简化了部署和管理的流程,同时提供了对爬虫状态的监控和控制。

安装与启动部署节点

  1. 安装 Scrapyd:
    首先,您需要确保已经安装了 Python 和 pip。然后使用 pip 安装 Scrapyd:
pip install scrapyd
  1. 启动 Scrapyd 服务器:
    要在服务器上启动 Scrapyd,只需运行以下命令:
scrapyd
  1. 修改默认配置,使scrapyd公开访问【后面部署多台机器需要添加此配置】
    在当前运行目录添加文件scrapyd.conf 文件,写入以下内容
bind_address = 0.0.0.0
http_port = 6800

重新启动,并注意防火墙设置,即可在公开网络内访问到。

Gerapy管理scrapyd节点,部署爬虫

Gerapy 是一个分布式爬虫管理框架,用于帮助开发人员创建、调度和监控爬虫。

  1. 安装 Gerapy: 你可以使用 pip 安装 Gerapy。

    pip install gerapy
    
  2. 初始化工作目录

    gerapy init
    
  3. 初始化数据库

    gerapy migrate
    
  4. 生成管理账号【账号与密码都为admin】

    gerapy initadmin
    
  5. 启动gerapy服务

    gerapy runserver
    
  6. 登录本地8000端口,访问gerapy服务

  7. 点击主机管理右边的创建主机,填写正在运行的scrapyd主机,点击认证与创建,即可链接scrapyd任务节点
    在这里插入图片描述
    在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1103918.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

软考高级系统架构设计师系列之:数学与经济管理

软考高级系统架构设计师系列之:数学与经济管理 一、数学与经济管理二、图论应用-最小生成树三、图论应用-最短路径四、图论应用-网络与最大流量五、运筹方法-线性规划六、运筹方法-动态规划七、运筹方法-转移矩阵八、运筹方法-排队论九、运筹方法-决策-不确定决策十、运筹方法…

携手北大医学部、哈佛BCH顶尖平台,飞鹤全面启动脑发育战略

10月17日,“专研大脑营养 聪明中国宝宝”飞鹤脑发育战略发布会在北京举办。会上,中国飞鹤宣布启动脑发育战略。诺奖得主迈克尔莱维特、中国工程院院士朱蓓薇、中国工程院院士陈卫、北京大学神经科学研究所副所长邢国刚等海内外专家齐聚,共同探…

Redis数据结构之listpack

前言 当数据量较小时,Redis 会优先考虑用 ziplist 来存储 hash、list、zset,这么做可以有效的节省内存空间,因为 ziplist 是一块连续的内存空间,它采用一种紧凑的方式来存储元素。但是它也有缺点,比如查找的时间复杂度…

Unity2023, Unity2022, Unity2021的性能对比(帧率)

最近由于需要用到Unity最新版的一些功能,比如Spline,比如Foward渲染,新项目用了Unity2022.3.5版本,但是出包之后,感觉帧率很低。本着好奇的态度,专门写了一个测试场景,分别在Unity2023.1.15&…

激光跟踪仪在风电行业中的应用

随着全球能源行业重点从化石能源向可再生能源转移,风电行业逐渐成为我国能源供应体系的重要分支,相关的风电检测设备需求量急剧增加。 风电设备主要特点是“重、大”,在过去,主要使用大型卡尺、两点式仪表、专用模板等量具对重要尺…

PS运行中缺失d3dcompiler_47.dll问题的5个有效修复方法总结

在使用ps作图的时候,我们有时会遇到一些问题,其中之一就是“PS运行中缺失d3dcompiler_47.dll”的问题。这个问题可能会导致PS无法正常运行,“d3dcompiler_47.dll”。这是一个动态链接库文件,它是DirectX的一部分,主要负…

Docker仓库harbor私服搭建

Harbor和Registry都是Docker的镜像仓库,但是Harbor作为更多企业的选择,是因为相比较于Regisrty来说,它具有很多的优势。 提供分层传输机制,优化网络传输 Docker镜像是是分层的,而如果每次传输都使用全量文件(所以用FT…

Kubernetes 基础

Kubernetes是什么 K8S由google的Borg系统(博格系统,google内部使用的大规模容器编排工具)作为原型, 后经GO语言延用Borg的思路重写并捐献给CNCF基金会开源。 云原生基金会(CNCF)于2015年12月成立,隶属于Linux基金会…

Lock锁的使用方法(一)

public class LockTest01 {private Lock lock new ReentrantLock();public static void main(String[] args) throws InterruptedException {/*** Lock锁 获取锁和释放锁 需要开发人员自己定义*/LockTest01 lockTest01 new LockTest01();lockTest01.print();Thread.sleep(500…

C++基础入门详解(二)

文章目录 引用语法和使用场景基本语法使用场景引用作函数参数引用作返回值常引用 权限问题权限的放大、平移、缩小类型转化时使用的 const 引用的底层逻辑 内联函数内联函数缺点 引用 C中的引用不是新定义一个变量,而是给已存在变量取了一个别名,编译器…

海量小文件数据传输如何确保安全性

在当今的信息化社会,企业需要处理和传输的文件越来越多,越来越大。其中,海量小文件数据是一种特殊的数据类型,它由数亿级别的小文件(通常小于1MB)组成,它在图片网站、物联网设备、日志分析等场景…

尚硅谷Flink(完)FlinkSQL

🧙FlinkSQL🏂🤺 Table API 和 SQL 是最上层的 API,在 Flink 中这两种 API 被集成在一起,SQL 执行的对象也是Flink 中的表(Table),所以我们一般会认为它们是一体的。 SQL API 是基于…

C#的数据集:DataSet对象

目录 一、合并DataSet内容 1.源码 2.生成效果 二、 复制DataSet内容 1.源码 2.生成效果 DataSet对象就像存放于内存中的一个小型数据库。它可以包含数据表、数据列、数据行、视图、约束以及关系。通常,DataSet的数据来源于数据库或者XML,为了从数…

智慧文旅推动“互联网+”深入发展、促进数字经济加速增长

1997年之后,科技开始成为旅游行业发展的重要生产要素和重要动力。 文旅1.0时代,科技所能提供的信息和服务基本都需要游客在旅游开始之前做大量的准备工作,而在旅游过程中却无法随机应变,对于旅游景点来说,也只是更换了…

如何在C程序中使用libcurl库下载网页内容

概述 爬虫是一种自动获取网页内容的程序,它可以用于数据采集、信息分析、网站监测等多种场景。在C语言中,有一个非常强大和灵活的库可以用于实现爬虫功能,那就是libcurl。libcurl是一个支持多种协议和平台的网络传输库,它提供了一…

在.Net 5或更高版本的.Net中使用appsettings.json配置文件

在.Net 5或更高版本的.Net中使用appsettings.json配置文件 对于 .NET Framework 应用程序,我们始终使用app.config来存储应用程序的配置值。 在.NET Core或者.Net 5包括其他更高版本的.Net框架中,我们需要使用appsettings.json文件,而不是A…

餐饮业的现状能拉动消费市场吗?

有关“餐饮店倒闭成趋势”话题的讨论在互联网上愈加热烈起来,足以说明“全民消费,拉动经济”的希望尚未变成现实。从笔者寄居养老的风水宝地——国家AAAA级旅游景区崇州市街子古镇的餐饮店,在今年中秋、国庆双节假日期间火了几天后生意又复归…

计算机毕业设计 基于Spring Boot智能停车计费系统的设计与实现 Javaweb项目 Java实战项目 前后端分离 文档报告 代码讲解 安装调试

🍊作者:计算机编程-吉哥 🍊简介:专业从事JavaWeb程序开发,微信小程序开发,定制化项目、 源码、代码讲解、文档撰写、ppt制作。做自己喜欢的事,生活就是快乐的。 🍊心愿:点…

C++之基于Winsock2封装UDPServer与UDPClient

文章目录 Socket过程UDPServer.hUDPServer.cppUDPClient.hUDPClient.cppmain.cppCMakeLists.txt测试截图 Socket过程 UDPServer UDPClient UDPServer.h #ifndef UDPSERVER_H_INCLUDED #define UDPSERVER_H_INCLUDED#include <iostream> #include <string> #inclu…

漫谈下一代防火墙与Web应用防火墙的区别

如今&#xff0c;Web应用程序变得越来越复杂&#xff0c;更是黑客非常感兴趣的目标。在谈到网络安全的话题时&#xff0c;我们总会讨论下一代防火墙与Web应用防火墙的区别。当已经拥有下一代防火墙&#xff08;NGFW&#xff09;时&#xff0c;为什么需要Web应用程序防火墙&…