Python爬虫Scrapyd项目部署详细教程--最完整版本

news2025/1/12 18:45:18

文章目录

  • scrapy项目部署
    • 1.scrapyd部署工具介绍
      • (1)环境安装
    • 2.scrapy项目部署
      • (1)配置需要部署的项目
      • (2)管理scrapy项目
      • (3)启动项目
      • (4)关闭项目
      • (5)删除项目
    • 3.requests模块控制scrapy项目

scrapy项目部署

1.scrapyd部署工具介绍

  • scrapyd是一个用于部署和运行scrapy爬虫的程序,它由 scrapy 官方提供的。它允许你通过JSON API来部署爬虫项目和控制爬虫运行。
    所谓json api本质就是post请求的webapi

使用scrapyd部署,可以给更多的人去使用
选择一台主机当做服务器,安装并启动 scrapyd 服务。再这之后,scrapyd 会以守护进程的方式存在系统中,监听爬虫地运行与请求,然后启动进程来执行爬虫程序。

(1)环境安装

  • scrapyd服务:

​ pip install scrapyd
在这里插入图片描述

  • scrapyd客户端:

​ pip install scrapyd-client

​ 一定要安装较新的版本10以上的版本,如果是现在安装的一般都是新版本

####启动scrapyd服务

  • 打开终端在scrapy项目路径下 启动scrapyd的命令: scrapyd
    执行scrapyd这个命令,需要将该命令添加到环境变量
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述

在这里插入图片描述

这样启动,只能在本机localhost:6800访问,浏览器访问不了

我们需要修改下配置
在这里插入图片描述

官方默认配置:
在这里插入图片描述

[root@master01 ~ ]#cat /etc/scrapyd/scrapyd.conf 
[scrapyd]
eggs_dir    = eggs
logs_dir    = logs
items_dir   =
jobs_to_keep = 5
dbs_dir     = dbs
max_proc    = 0
max_proc_per_cpu = 10
finished_to_keep = 100
poll_interval = 5.0
bind_address = 0.0.0.0
http_port   = 6800
prefix_header = x-forwarded-prefix
debug       = off
runner      = scrapyd.runner
jobstorage  = scrapyd.jobstorage.MemoryJobStorage
application = scrapyd.app.application
launcher    = scrapyd.launcher.Launcher
spiderqueue = scrapyd.spiderqueue.SqliteSpiderQueue
webroot     = scrapyd.website.Root
eggstorage  = scrapyd.eggstorage.FilesystemEggStorage

[services]
schedule.json     = scrapyd.webservice.Schedule
cancel.json       = scrapyd.webservice.Cancel
addversion.json   = scrapyd.webservice.AddVersion
listprojects.json = scrapyd.webservice.ListProjects
listversions.json = scrapyd.webservice.ListVersions
listspiders.json  = scrapyd.webservice.ListSpiders
delproject.json   = scrapyd.webservice.DeleteProject
delversion.json   = scrapyd.webservice.DeleteVersion
listjobs.json     = scrapyd.webservice.ListJobs
daemonstatus.json = scrapyd.webservice.DaemonStatus

再次启动
在这里插入图片描述

浏览器访问
在这里插入图片描述

部署过的项目在projects后面会显示 项目名称
在这里插入图片描述

  • 点击job可以查看任务监控界面,目前没有任务,都为空
    在这里插入图片描述

2.scrapy项目部署

(1)配置需要部署的项目

  • 编辑需要部署的项目的scrapy.cfg文件(需要将哪一个爬虫部署到scrapyd中,就配置该项目的该文件)

看下默认配置
在这里插入图片描述

[deploy:部署名(部署名可以自行定义)]
url = http://localhost:6800/ #这里是写scrapyd的服务器地址,scrapyd上面不用运行scrapy项目
project = 项目名(创建爬虫项目时使用的名称)

username = bobo # 如果不需要用户名可以不写
password = 123456 # 如果不需要密码可以不写

比如我们在Windows上的项目
在这里插入图片描述

#####部署项目到scrapyd 在windows上执行部署命令
scrapy-deploy 是scrapyd-client的命令 在Windows要安装scrapyd-client
在这里插入图片描述

  • 同样在scrapy项目路径下执行如下指令:
    scrapyd-deploy 部署名(配置文件中设置的名称) -p 项目名称
    在这里插入图片描述

浏览器刷新,可以看到我们部署的项目
在这里插入图片描述

在Windows也能查看部署过的项目
scrapyd-deploy -l
在这里插入图片描述

可以通过部署名字,查看项目
scrapyd-deploy -L jinghao
在这里插入图片描述

(2)管理scrapy项目

#####指令管理

  • 安装curl命令行工具

    • window需要安装
    • linux和mac无需单独安装
  • window安装步骤:

    • 下载curl文件:https://curl.se/download.html,打开网页后向下拖动,找到window系统对应版本下载
      向下拉,找到Windows64位

点这里下载
在这里插入图片描述
在这里插入图片描述

下载后,放置到一个无中文的文件夹下直接解压缩,解压后将bin文件夹配置环境变量!
在这里插入图片描述

测试curl可用性
在这里插入图片描述

(3)启动项目

curl http://10.10.0.50:6800/schedule.json -d project=项目名 -d spider=爬虫名

curl http://10.10.0.50:6800/schedule.json -d project=jianli -d spider=jian

在pycharm执行报错,要在cmd终端执行
在这里插入图片描述

返回结果:注意期中的jobid,在关闭项目时候会用到
在这里插入图片描述

浏览器上看我们的job,有执行完成的job
在这里插入图片描述

(4)关闭项目

curl http://localhost:6800/cancel.json -d project=项目名 -d job=项目的jobid

curl http://10.10.0.50:6800/cancle.json -d project=jianli -d job=“8054d3a2471911eebeb8000c29476a9e”
在这里插入图片描述

(5)删除项目

curl http://localhost:6800/delproject.json -d project=爬虫项目名称
在这里插入图片描述

可见项目已被删除
在这里插入图片描述

3.requests模块控制scrapy项目

import requests

# 启动爬虫
# url = 'http://10.10.0.50:6800/schedule.json'
# data = {
#     'project': "jianli",
#     'spider': "jian",
# }
# resp = requests.post(url, data=data)
#
# print(resp.json())


# # 停止爬虫
url = 'http://10.10.0.50:6800/cancel.json'
data = {
    'project': "jianli",
    'job': "ab437994471c11eebeb8000c29476a9e",
}
resp = requests.post(url, data=data)

在Windows上创建的项目,到linux运行报这个错误
AttributeError: ‘AsyncioSelectorReactor’ object has no attribute ‘_handleSignals’
在这里插入图片描述

是由于Twisted版本不兼容的问题,把版本降到22.10.0就可以了 目前使用的python版本是3.11.5
更换版本后,可见部署运行成功
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1430860.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【Transformer 】 Hugging Face手册-推理管道 (04/10)

一、说明 这里是Hugging Face手册第四部分,如何使用推理管道;即使您没有特定模式的经验或不熟悉模型背后的底层代码,您仍然可以使用它们通过 pipeline ()进行推理! 二、推理管道 pipeline ()可以轻松使用Hub中的任何模型来推理任…

Go语言的100个错误使用场景(11-20)|项目组织和数据类型

前言 大家好,这里是白泽。 《Go语言的100个错误以及如何避免》 是最近朋友推荐我阅读的书籍,我初步浏览之后,大为惊喜。就像这书中第一章的标题说到的:“Go: Simple to learn but hard to master”,整本书通过分析100…

Channel事件管理类实现(模块三)

目录 类功能 类定义 类实现 类功能 因为涉及到后续一些实现&#xff0c;因此后续可能会进行修改 类定义 class Channel { private:uint32_t _events; // 当前需要监控的事件uint32_t _revents; // 当前连接触发的事件using EventCallback std::function<void()>;E…

自学Java的第58,59天

网络通信 网络通信三要素&#xff1a;ip地址&#xff0c;端口号&#xff0c;协议 ip地址 常用方法 写法 端口号 协议 UDP通信 快速入门 写法&#xff08;客户端&#xff09; &#xff08;服务端&#xff09; UDP通信 多发多收 TCP通信 写法&#xff08;客户端&#xff09; …

Node.js版本管理工具之_Volta

Node.js包管理工具之_Volta 文章目录 Node.js包管理工具之_Volta1. 官网1. 官网介绍2. 特点1. 快( Fast)2. 可靠(Reliable)3. 普遍( Universal) 2. 下载与安装1. 下载2. 安装3. 查看 3. 使用1. 查看已安装的工具包2. 安装指定的node版本3.切换项目中使用的版本 1. 官网 1. 官网…

网络协议梳理

1 引言 在计算机网络中要做到有条不紊地交换数据&#xff0c;就必须遵守一些事先约定好的规则。这些规则明确规定了所交换的数据的格式以及有关的同步问题。这里所说的同步不是狭义的&#xff08;即同频或同频同相&#xff09;而是广义的&#xff0c;即在一定的条件下应当发生什…

大数据本地环境搭建03-Spark搭建

需要提前部署好 Zookeeper/Hadoop/Hive 环境 1 Local模式 1.1 上传压缩包 下载链接 链接&#xff1a;https://pan.baidu.com/s/1rLq39ddxh7np7JKiuRAhDA?pwde20h 提取码&#xff1a;e20h 将spark-3.1.2-bin-hadoop3.2.tar.gz压缩包到node1下的/export/server目录 1.2 解压压…

镜舟科技客户成功团队负责人孟庆欢:湖仓一体将成为数据架构的新范式

大数据产业创新服务媒体 ——聚焦数据 改变商业 随着数字化的概念逐步深入不同领域企业的运营中&#xff0c;业务形态和数字化路径也越来越丰富。这也为企业数据处理、储存的方式提出了更多要求。对于企业&#xff0c;尤其是数据驱动型企业来说&#xff0c;需要强大的解决方案…

LNMP.

一.mysl配置 1.安装mysql yum install mysql-server -y 2.进入mysql配置文件目录 cd /etc/my.cnf.d3.编辑mysql配置文件 vim mysql-server.cnf 在[mysqld]中添加: character-set-serverutf84.启动mysql服务 systemctl start mysqld5.登入mysql mysql 6.创建数据库 cre…

153基于matlab的滚动轴承故障诊断

基于matlab的滚动轴承故障诊断&#xff0c;基于小波包分解&#xff0c;得到数据峭度值&#xff0c;以正常与故障数据峭度差值进行最大尺度重构&#xff0c;对重构信号进行包络谱分析。程序已调通&#xff0c;可直接运行。 153matlab 信号重构 包络谱分析 故障诊断 (xiaohongshu…

Macbook 安装金铲铲之战等 IOS 游戏

前言 Macbook 现在可以玩一下 IOS 系统上的游戏啦&#xff0c;以笔者的 M1 Pro 芯片为例 步骤 一、安装 PlayCover 推荐 Sonama 安装 Nightly 版本 官网地址&#xff1a; https://playcover.io/ Nightly: https://nightly.link/playcover/playcover/workflows/2.nightly_re…

基础小白快速入门python------Python程序设计结构,循环

循环在计算机中&#xff0c;是一个非常重要的概念&#xff0c;是某一块儿代码的不断重复运行&#xff0c;是一种逻辑思维 在编程中的体现&#xff0c;运用数学思维加代码结合加数据&#xff0c;就构成了一个循环。 在Python中&#xff0c;循环主要分为三大类 for循环 while循…

二维图像生成 3D 场景:nerfstudio 帮你简化流程 | 开源日报 No.164

nerfstudio-project/nerfstudio Stars: 7.7k License: Apache-2.0 nerfstudio 是一个友好的 NeRFs 协作工作室。 该项目旨在简化创建、训练和测试 NeRFs 的端到端流程&#xff0c;支持更模块化的 NeRFs 实现&#xff0c;并提供了简单的 API。 其主要功能和优势包括&#xff1…

ABAP 笔记--内表结构不一致,无法更新数据库MODIFY和UPDATE

目录 ABAP 笔记内表结构不一致&#xff0c;无法更新数据库MODIFY和UPDATE ABAP 笔记 内表结构不一致&#xff0c;无法更新数据库 MODIFY和UPDATE 如果是使用MODIFY或者UPDATE

【DDD】学习笔记-什么是模型

从领域驱动的战略设计进入战术设计&#xff0c;简单说来&#xff0c;就是跨过系统视角的限界上下文边界进入它的内部&#xff0c;从分层架构的逻辑分层进入到每一层的内部。在思考内部的设计细节时&#xff0c;首先需要思考的问题就是&#xff1a;什么是模型&#xff08;Model&…

Android 13.0 原生SystemUI下拉通知栏每条通知默认展开

1.前言 在13.0的系统rom原生开发中,在在对SystemUI下拉通知栏做定制的时候,在下拉状态栏的时候,通知栏中最后一条通知默认是收缩的 点击按钮 就会展开 原生系统systemui就是如此,为了更美观 所以要求最后一条通知也默认展开,显得更美观 最终效果图: 2.原生SystemUI下拉通…

Git使用命令大全

命令大全参考阮一峰的博客&#xff0c;根据自己的使用习惯作了调整。 Git常用命令 其他常用的命令 配置Git # 显示当前的Git配置 $ git config --list# 编辑Git配置文件 $ git config -e [--global]# 设置提交代码时的用户信息 $ git config [--global] user.name "[nam…

Multiuser Communication Aided by Movable Antenna

文章目录 II. SYSTEM MODEL AND PROBLEM FORMULATIONA. 通道模型B. Problem Formulation III. PROPOSED SOLUTION II. SYSTEM MODEL AND PROBLEM FORMULATION 如图1所示&#xff0c;BS配置了尺寸为 N N 1 N 2 NN_{1} \times N_{2} NN1​N2​ 的均匀平面阵列&#xff08;uni…

第二十五天| 216.组合总和III、17.电话号码的字母组合

Leetcode 216.组合总和III 题目链接&#xff1a;216 组合总和III 题干&#xff1a;找出所有相加之和为 n 的 k 个数的组合&#xff0c;且满足下列条件&#xff1a; 只使用数字1到9每个数字 最多使用一次 返回 所有可能的有效组合的列表 。该列表不能包含相同的组合两次&#…

【Qt5小项目】接金币小游戏

代码量在250行左右&#xff0c; 需要源码的可以私信我。