Scrapy与分布式开发(3):Scrapy核心组件与运行机制

news2024/10/6 1:20:59

Scrapy核心组件与运行机制

引言

这一章开始讲解Scrapy核心组件的功能与作用,通过流程图了解整体的运行机制,然后了解它的安装与项目创建,为后续实战做好准备。

Scrapy定义

Scrapy是一个为了爬取网站数据、提取结构性数据而编写的应用框架。它使用Python语言编写,并基于异步网络框架Twisted来实现高性能的爬虫。Scrapy最初是为了页面抓取(更确切地说是网络抓取)而设计的,但它也可以用于获取API返回的数据或通用的网络爬虫。

体系结构图

在这里插入图片描述

Scrapy核心组件

Scrapy框架主要由以下几个核心组件构成:

  • 引擎(Engine):Scrapy的引擎负责控制数据流在系统中所有组件之间的流动。它接收请求并将其分派给调度器,同时也接收来自下载器的响应并将其分派给相应的Spider进行处理。
  • 调度器(Scheduler):调度器负责接收请求并将其加入队列中,以便在引擎空闲时按一定的顺序分派给下载器。Scrapy默认使用优先级队列来实现调度器。
  • 下载器(Downloader):下载器负责获取网页内容。当引擎将请求分派给下载器时,下载器会向目标网站发起请求,并将获取到的响应返回给引擎。
  • Spider:Spider是Scrapy框架中的核心组件之一,负责处理网页内容并提取结构化数据。每个Spider都需要定义一个或多个解析方法,用于从响应中提取数据。
  • 项目管道(Item Pipeline):项目管道负责处理Spider提取的数据。你可以在管道中定义一系列的数据处理步骤,如数据清洗、数据验证和数据持久化等。
  • 中间件(Middlewares):中间件是Scrapy框架中的一个重要概念,它允许你在请求和响应的处理过程中插入自定义的逻辑。Scrapy提供了下载器中间件和Spider中间件,分别用于处理下载过程中的请求和响应,以及Spider处理过程中的请求和响应。

Scrapy组件之间的交互过程深度解析

Scrapy的各个组件之间的交互过程就像是一个协同工作的流水线,每个组件都有自己特定的任务,并且它们通过消息传递进行交互,确保数据的流畅传递和处理。

  1. 起始阶段:Spider与引擎的交互

    • Spider:首先,Spider会将自己感兴趣的URL或URL模式告知引擎。这是整个流程的起点。
    • 引擎:引擎接收到Spider提供的URL后,将其封装成一个请求(Request)对象。
  2. 调度阶段:引擎与调度器的交互

    • 引擎:引擎将封装好的请求对象传递给调度器。
    • 调度器:调度器会检查这个请求是否已经被处理过(去重),如果没有,则将其放入待处理队列中。
  3. 下载阶段:引擎与下载器的交互

    • 引擎:引擎从调度器队列中取出一个请求,并交给下载器。
    • 下载器:下载器根据请求中的URL,发送HTTP请求到目标网站,并下载网页内容。
  4. 解析阶段:引擎与爬虫的交互

    • 下载器:下载完成后,下载器将下载的网页内容(即响应对象,Response)返回给引擎。
    • 引擎:引擎将响应对象交给爬虫进行解析。
    • 爬虫:爬虫根据预设的规则,解析响应对象,提取出需要的数据,并可能生成新的请求(比如点击链接、进行分页等)。
  5. 数据处理阶段:引擎与项目管道的交互

    • 爬虫:爬虫将解析得到的数据和新的请求返回给引擎。
    • 引擎:引擎将解析得到的数据交给项目管道进行进一步的处理,如清洗、验证和存储。
    • 项目管道:项目管道处理完数据后,可以选择将其存储到数据库、文件或其他存储介质中。
  6. 循环与结束

    • 引擎:对于爬虫生成的新请求,引擎会重复上述流程(从调度阶段开始),直到调度器中没有更多的请求,或者达到了某种终止条件(如达到设定的爬取数量、时间等)。
    • 结束:当所有请求都处理完毕,且没有新的请求生成时,整个Scrapy流程结束。

在这个过程中,每个组件都扮演着特定的角色,并通过消息传递进行交互。这种协同工作的模式使得Scrapy能够高效地爬取和处理网页数据。同时,Scrapy还提供了丰富的中间件机制,允许用户自定义和扩展各个组件之间的交互过程,以满足更复杂的爬取需求。

Scrapy安装与项目创建

Scrapy的安装

首先,确保你的Python版本是3.6或以上,因为Scrapy需要Python 3.6+。你可以使用以下命令来安装Scrapy:

pip install scrapy

如果你想卸载Scrapy,可以使用以下命令:

pip uninstall scrapy

如果你需要安装特定版本的Scrapy(例如2.6.1版本),可以使用以下命令:

pip install scrapy==2.6.1

安装完成后,你可以通过以下命令来检查Scrapy是否成功安装:

pip list

在列表中,你应该能看到Scrapy及其版本号。

创建Scrapy项目

安装完Scrapy后,你可以开始创建一个新的Scrapy项目。打开终端或命令行,然后导航到你想要创建项目的目录,并使用以下命令来创建一个新的Scrapy项目:

scrapy startproject myproject

这里的myproject是你的项目名称,你可以根据自己的需要来命名。执行上述命令后,Scrapy会在当前目录下创建一个名为myproject的新文件夹,其中包含了一些基本的文件和目录结构。

接下来,你可以在myproject目录下创建一个新的爬虫。使用以下命令来生成一个新的爬虫文件:

cd myproject
scrapy genspider myspider example.com

这里的myspider是你的爬虫名称,example.com是你要爬取的网站域名。执行上述命令后,Scrapy会在myproject/spiders目录下创建一个名为myspider.py的新文件,其中包含了一个基本的爬虫框架。

演示流程图

注意,安装scrapy需要进入python环境,如果大家是使用Anaconda安装的python环境,需要进去指定的环境才能进行下面操作,实际上我们直接在pycharm中进行即可

进入指定环境和目录,输入scrapy验证已安装scrapy
在这里插入图片描述

创建项目coreSpider,命令是scrapy startproject coreSpider
在这里插入图片描述

进入新创建好的coreSpider目录,先拿百度为例创建爬虫脚本
在这里插入图片描述

再使用pycharm打开新创建好的项目即可
在这里插入图片描述

项目构成

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1494971.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

java-新手笔记(类篇)-暂时总结

类定义 用于存储的方法的结构体容器,可以封装多个方法 当在ideal编程器中的工程中创建类文件的同时,就会创建一个公共类, 当我们在新建一个公共类的时候,会出现报错,其要求公共类必须同类文件名一致 同一文件编写新类的时候,不要加public修饰词 调用类…

基于串流技术的p2p共享桌面共享方案

研究远控有一定时间了,但真正落地运用的不多,所以也不太上心,平时也只是自己diy玩玩,远程共享看看电视剧。 最近生成式ai大火,直接带动了gpu应用的相关场景,相关场景,但gpu卡又贵,对…

EXCEL计算时间差(单位毫秒)

公式 VALUE(MID(TEXT(C4,"h:mm:ss.000"),10,7))VALUE(MID(TEXT(C4,"h:mm:ss.000"),6,4))*1000

八、西瓜书——特征选择与稀疏学习

1.子集搜索与评价 对于1个学习任务来说,给定属性集,其中有些属性可能很关键、很有用,另一些属性则可能没什么用,我们将属性称为“特征”(feature),对当前学习任务有用的属性称为“相关特征”(relevant feature)、没什么用的属性称为“无关特征”(irrelev…

Xilinx 7系列FPGA配置(ug470)

Xilinx 7系列FPGA配置(ug470) 配置模式串行配置模式接口从-连接方式主-连接方式串行菊花链(非同时配置)串行配置(同时配置)时序 主SPI配置模式SPIx1/x2 连接图SPIx1模式时序SPIx4 连接图SPI操作指令操作fla…

【工作记录】Threejs学习笔记-引入OrbitControls

前言 前一篇文章我们介绍了three.js中的基础概念,并给出了展示整体流程的一个简单示例, 本文我们继续研究。 问题 我们在很多3d效果图上都能看到鼠标移动或者缩进实现旋转或者放大缩小的效果,这个在three.js中是通过OrbitControls这个组件…

计网面试题整理上

1. 计算机网络的各层协议及作用? 计算机网络体系可以大致分为一下三种,OSI七层模型、TCP/IP四层模型和五层模型。 OSI七层模型:大而全,但是比较复杂、而且是先有了理论模型,没有实际应用。TCP/IP四层模型&#xff1a…

应急响应实战笔记03权限维持篇(6)

第6篇:三大渗透测试框架权限维持技术 0x00 前言 在渗透测试中,有三个非常经典的渗透测试框架----Metasploit、Empire、Cobalt Strike。 那么,通过漏洞获取到目标主机权限后,如何利用框架获得持久性权限呢? 0x01 MS…

【递归搜索回溯专栏】专题一递归:快速幂

本专栏内容为:递归,搜索与回溯算法专栏。 通过本专栏的深入学习,你可以了解并掌握算法。 💓博主csdn个人主页:小小unicorn ⏩专栏分类:递归搜索回溯专栏 🚚代码仓库:小小unicorn的代…

折线图 温度变化曲线图

代码详情介绍 导入必要的库: matplotlib.pyplot:用于绘图。 matplotlib.font_manager:用于设置中文字体。 datetime:用于处理日期和时间。 random:用于生成随机数。 numpy:用于生成arange函数的刻度。 设置…

递推与递归DFS

;例题引入: 在跳楼梯问题中,我们假设每次可以跳1级或2级。如果我们想跳到第N级台阶,那么我们的最后一次跳跃只能是1级或2级。 如果我们最后一次跳1级,那么我们必须先跳到第N-1级台阶。由于跳到第N-1级台阶有f(N-1)种方…

【web安全】实战 批量横扫springboot命令执行漏洞

天命:这次目标批量横扫,但是没完全成功,也没完全失败 步骤1:磨刀准备 这次先针对漏洞来寻找目标,所以寻找这种 springboot 的目标 利用CVE漏洞,进行命令执行攻击 先找靶场训练一波,叠加反弹sh…

【Linux】Linux网络故障排查与解决指南

🍎个人博客:个人主页 🏆个人专栏:Linux ⛳️ 功不唐捐,玉汝于成 目录 前言 正文 检查网络连接状态: 检查路由表: 检查DNS配置: 检查网络连接状态: 检查防火墙设…

用python和pygame库实现刮刮乐游戏

用python和pygame库实现刮刮乐游戏 首先,确保你已经安装了pygame库。如果没有安装,可以通过以下命令安装: pip install pygame 示例有两个。 一、简单刮刮乐游戏 准备两张图片,一张作为背景bottom_image.png,一张作…

C++ 链表OJ

目录 1、2. 两数相加 2、24. 两两交换链表中的节点 3、143. 重排链表 4、23. 合并 K 个升序链表 5、25. K 个一组翻转链表 解决链表题目常用方法: 1、画图 2、引入虚拟"头”结点 便于处理边界情况方便我们对链表操作 3、大胆定义变量,减少连接…

使用nvidia-ml-py事实监控GPU状态

平时监控GPU状态最常用的是watch配合nvidia-smi指令,但有时可能不仅仅需要监控,还需要记录状态数据,比如GPU的显存变化以及利用率变化等等。本文提供了一个使用nvidia-ml-py包编写的简易Demo,该Demo能够实现简易版的nvidia-smi功能…

Linux网络隧道协议IPIP认知(基于Linux network namespace 的 IPIP 隧道通信)

写在前面 博文内容为 Linux 隧道通信 IPIP认知内容涉及:ipip 介绍,一个 ipip 通信 Demo 以及数据帧流转分析理解不足小伙伴帮忙指正 某些人和事,哪怕没有缘分,是路边的风景,可是只要看一眼,依然会让人觉得…

Java中使用Jsoup实现网页内容爬取与Html内容解析并使用EasyExcel实现导出为Excel文件

场景 Pythont通过request以及BeautifulSoup爬取几千条情话: Pythont通过request以及BeautifulSoup爬取几千条情话_爬取情话-CSDN博客 Node-RED中使用html节点爬取HTML网页资料之爬取Node-RED的最新版本: Node-RED中使用html节点爬取HTML网页资料之爬…

mybatis单表curd笔记(尚硅谷

Mybatis 11111ibatis和mybatis不同 查询文档mybatis的日志输出id赋值输入(向sql语句传入数据单个简单类型单个实体对象多个简单类型map类型 输出数据的指定单个简单类型单个实体类型输出map类型输出list输出类型主键回显(自增长类型主键回显(…

强大的ps 命令 -o 自定义输出内容选项

强大的ps 命令 -o 自定义输出内容选项 1、ps命令介绍和作用2、问题描述 1、ps命令介绍和作用 ps 是一个 Unix 和类 Unix 操作系统中常用的命令,用于显示当前运行的进程信息。ps 命令的作用包括: 查看进程信息: ps 命令可以列出当前系统中正…