探索Scrapy中间件:自定义Selenium中间件实例解析

news2024/11/17 21:56:31

简介

Scrapy是一个强大的Python爬虫框架,可用于从网站上抓取数据。本教程将指导你创建自己的Scrapy爬虫。其中,中间件是其重要特性之一,允许开发者在爬取过程中拦截和处理请求与响应,实现个性化的爬虫行为。

本篇博客将深入探讨Scrapy中间件的关键作用,并以一个实例详细介绍了自定义的Selenium中间件。我们将从Scrapy的基本设置开始,逐步讲解各项常用设置的作用与配置方法。随后,重点关注中间件的重要性,介绍了下载器中间件和Spider中间件的作用,并通过一个自定义Selenium中间件的示例,演示了如何利用Selenium实现页面渲染,并在Scrapy中应用该中间件。
如果对您对scrapy不了解,建议先了解一下:
初识Scrapy:Python中的网页抓取神器 - 掘金 (juejin.cn)

编写settings.py

本文件为scrapy的配置文件.

以下是有关Scrapy设置的详细介绍:

  1. BOT_NAME: 设置爬虫的名称。
  2. SPIDER_MODULESNEWSPIDER_MODULE: 定义了包含爬虫代码的模块路径。
  3. ROBOTSTXT_OBEY: 设置为True时,遵守Robots协议,爬虫将会尊重网站的robots.txt文件。
  4. USER_AGENT: 设置用户代理(User-Agent),模拟浏览器访问。
  5. DOWNLOAD_DELAYCONCURRENT_REQUESTS_PER_IP: 控制下载延迟和每个IP的并发请求数,用于避免过度访问网站。
  6. COOKIES_ENABLED: 设置为True时,启用Cookies。
  7. DEFAULT_REQUEST_HEADERS: 设置默认的HTTP请求头。
  8. ITEM_PIPELINES: 定义项目管道,用于处理爬取的数据。
  9. DOWNLOADER_MIDDLEWARESSPIDER_MIDDLEWARES: 分别定义下载器中间件和Spider中间件,用于在请求和响应过程中执行特定操作。
  10. AUTOTHROTTLE_ENABLEDAUTOTHROTTLE_TARGET_CONCURRENCY: 自动限速功能,帮助动态调整请求速率,以防止被封IP。

这些设置可以在Scrapy项目中的settings.py文件中进行配置。例如:


BOT_NAME = 'mybot'

SPIDER_MODULES = ['mybot.spiders']
NEWSPIDER_MODULE = 'mybot.spiders'

ROBOTSTXT_OBEY = True

USER_AGENT = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/94.0.4606.81 Safari/537.36'

DOWNLOAD_DELAY = 2
CONCURRENT_REQUESTS_PER_IP = 4

COOKIES_ENABLED = False

DEFAULT_REQUEST_HEADERS = {
    'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
    'Accept-Language': 'en',
}

ITEM_PIPELINES = {
    'mybot.pipelines.MyPipeline': 300,
}

DOWNLOADER_MIDDLEWARES = {
    'mybot.middlewares.MyDownloaderMiddleware': 543,
}

SPIDER_MIDDLEWARES = {
    'mybot.middlewares.MySpiderMiddleware': 543,
}

AUTOTHROTTLE_ENABLED = True
AUTOTHROTTLE_TARGET_CONCURRENCY = 1.0

以上是一些常用的Scrapy设置,可以根据需要进行调整和扩展,以满足特定爬虫的要求。

其中DEFAULT_REQUEST_HEADERS中设置默认的请求头只是整个scrapy的默认爬虫,可以具体的spider里覆盖,仅作用于该spider。

例如:

header={
    'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
    'Accept-Language': 'en',
    'Cookie':"*****************************************************"
}
for i in range(1, 2):
    key = scenic_namelist[i]
    newurl = 'https:/www.***********.com/ticket/list.htm?keyword=' + key + '&region=&from=mpl_search_suggest'
    print(newurl)

    yield Request(url=newurl,headers=header)

该操作可用于一个scrapy项目里有多个网站的爬虫的情况下,需要设置不同的请求头。
可以在生成request时去添加header,将覆盖setting里配置的默认header。

而文章中PIP管道和各个中间件之中的配置后边的数字是指优先度。数字越小优先度越高,若同时启动多个中间件,请求将从优先度高的中间件->优先度低的中间件的顺序全部处理一遍。

自定义中间件

Scrapy中间件是在Scrapy引擎处理请求和响应的过程中,允许你在特定的点上自定义处理逻辑的组件。它们在整个爬取过程中能够拦截并处理Scrapy引擎发送和接收的请求和响应。中间件可以用于以下几个方面:

  1. 全局性处理请求和响应: 中间件可以截取所有请求和响应,允许你对它们进行全局性的修改,例如添加自定义的请求头、代理设置或处理响应数据等。
  2. 自定义爬取过程: 通过中间件,你可以自定义爬取的逻辑。例如,在请求被发送之前,可以通过中间件对请求进行处理,或者在收到响应后对响应进行预处理,以适应特定需求或网站的要求。
  3. 处理下载器(Downloader)和Spider之间的通信: 中间件允许你在下载器和Spider之间进行通信,并在其中植入处理逻辑。这可以用于在请求下载之前或响应到达Spider之后执行额外的操作。
  4. 实现和管理代理、用户认证等: 中间件也常用于处理代理设置、用户认证等功能。这些功能可能是整个爬取过程中必不可少的一部分。
  5. 处理异常和错误: 中间件可以用于捕获请求过程中可能出现的异常或错误,以执行相应的错误处理逻辑,比如重试请求或记录错误日志等。

在Scrapy中,有两种类型的中间件:

  • Downloader Middleware:用于处理引擎发送给下载器的请求和下载器返回的响应。
  • Spider Middleware:处理引擎发送给Spider的响应和Spider返回的请求。

通过编写和配置这些中间件,我们可以高度定制Scrapy爬虫的行为,从而更有效地处理网站数据并应对不同的场景和需求。
下面我们以一个自定义的Selenium中间件为例子来让大家更加深入的了解中间件。

from selenium import webdriver
from scrapy.http import HtmlResponse
from selenium.common.exceptions import TimeoutException
from scrapy import signals

class SeleniumMiddleware(object):
    def __init__(self):
        self.driver = webdriver.Chrome(executable_path='path_to_chromedriver')

    @classmethod
    def from_crawler(cls, crawler):
        middleware = cls()
        crawler.signals.connect(middleware.spider_closed, signals.spider_closed)
        return middleware

    def process_request(self, request, spider):
        if request.meta.get('selenium'):
            try:
                self.driver.get(request.url)
                body = self.driver.page_source.encode('utf-8')
                return HtmlResponse(self.driver.current_url, body=body, encoding='utf-8', request=request)
            except TimeoutException:
                return HtmlResponse(self.driver.current_url, status=504, request=request)
        return None

    def spider_closed(self, spider):
        self.driver.quit()

这个中间件示例使用了Selenium库,它会在处理Scrapy请求时,检查请求的元数据中是否包含selenium字段。如果包含,它将使用Selenium打开浏览器并加载页面,然后返回页面的HTML内容给Spider。request.meta.get也是我们判断某个中间件是否启动常用操作。

要使用这个中间件,需要在settings.py中进行相应的配置:

DOWNLOADER_MIDDLEWARES = {
    'your_project_name.middlewares.SeleniumMiddleware': 543,
}

SELENIUM_BROWSER = 'Chrome'  # 设置浏览器类型,可以是Chrome/Firefox等

在使用selenium中间件时有一些需要注意的地方。
如果使用场景是某个搜索框,若我们使用显示等待的方式等待结果元素的动态加载时要考虑到,若搜索结果为空的情况,此时显示等待就会报时间超限的异常。我们要提前想好处理逻辑。

下面是一个此种场景下的真实样例:

image.png

当然我们的生成URL列表的逻辑也可以放在中间件中,在def init(self):中执行。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1222353.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Pycharm之配置python虚拟环境

最近给身边的人写了脚本,在自己电脑可以正常运行。分享给我身边的人,却运行不起来,然后把报错的截图给我看了,所以难道不会利用pycharm搭建虚拟的环境?记录一下配置的过程。 第一步:右键要打开的python的代…

什么是单域名SSL安全证书?

单域名证书是什么? 单域名证书是指只包含一个具体域名的SSL/TLS证书,它可以用于保护单个主机名的HTTPS通信。例如,如果您有一个网站http://www.example.com,则单域名证书将仅为该域名颁发。 这种证书在保护单个域的安全方面很有…

hash 哈希表

哈希表是一种期望算法。 一般情况下,哈希表的时间复杂度是 O(1)。 作用 将一个复杂数据结构映射到一个较小的空间 0~N(10^5~10^6),最常用的情景:将 0~10^9 映射到 0~10^5。 离散化是一种及其特殊的哈希方式。离散化…

【978.最长湍流子数组】

目录 一、题目描述二、算法原理三、代码实现 一、题目描述 二、算法原理 三、代码实现 class Solution { public:int maxTurbulenceSize(vector<int>& arr) {int narr.size();vector<int> f(n),g(n);f[0]g[0]1;if(n1) return 1;int retmax(f[0],g[0]);for(int…

鸿蒙4.0开发笔记之DevEco Studio启动时不直接打开原项目

1、想要在DevEco Studio启动时不直接打开关闭前的那个项目&#xff0c;可以在设置中进行。 有两个位置可以进入“设置”&#xff0c;一个是左上角的File>Settings&#xff0c;二是右上方的设置图标。 2、进入Settings界面以后&#xff0c;选择Appearance&Behavior下面…

redis + celery

首先&#xff0c;部署Redis数据库&#xff1a; 先下载包&#xff1a; wget http://download.redis.io/releases/redis-5.0.7.tar.gz 解压redis包&#xff1a; tar -xvf redis-5.0.7.tar.gz 编译&#xff1a; make sudo make install &#xff08;这样没有指定安装目录&#…

Linux入门(三)

Linux grep 命令 1&#xff1a; 作用 ​ grep是一种文本搜索工具&#xff0c;它能使用特定的搜索模式&#xff0c;包括[正则表达式]搜索文本&#xff0c;并默认输出匹配行。 ​ windows类似的命令是findstr. 2&#xff1a;语法 grep -options&#xff08;参数&#xff09;…

eclipse启动无法找到类(自定义监听器)

一.报错 二.排查 1.首先检查代码是否有问题 本人报错是找不到监听器&#xff0c;故检查监听器的代码和web.xml文件是否有问题 public class DoorListener implements ServletContextListener 监听器是否继承并实现ServletContextListener中的方法。 web.xml中&#xff1a; &…

el-table固定表头(设置height)出现内容过多时不能滚动问题

主要原因是el-table没有div包裹 解决&#xff1a;加一个div并设置其高度和overflow 我自己的主要代码 <div class"contentTable"><el-tableref"table":data"tableData"striperow-dblclick"onRowDblclick"height"100%&q…

前置语音群呼与语音机器人群呼哪个更好

最近通过观察自己接到的营销电话&#xff0c;通过语音机器人外呼的量应该有所下降。同时和客户交流获取到的信息&#xff0c;也是和这个情况类似&#xff0c;很多AI机器人群呼的量转向了OKCC前置语音群呼。询问原因&#xff0c;说是前置语音群呼转化更快&#xff0c;AI机器人群…

ChatGPT 从零到一打造私人智能英语学习助手

近几年&#xff0c;随着智能化技术的发展和人工智能的兴起&#xff0c;越来越多的应用程序开始涌现出来。在这些应用中&#xff0c;语音识别、自然语言处理以及机器翻译等技术都得到了广泛的应用。其中&#xff0c;聊天机器人成为了最受欢迎的人工智能应用之一&#xff0c;它们…

Go 字符串处理:fmt.Sprintf与string.Builder的比较

在Go语言中&#xff0c;我们通常会遇到两种主要的方式来处理和操作字符串&#xff1a;使用fmt.Sprintf函数和string.Builder类型。尽管两者都可以实现字符串的格式化和连接&#xff0c;但它们在性能和用法上有一些关键区别。 1. fmt.Sprintf fmt.Sprintf是一个函数&#xff0c…

23111707[含文档+PPT+源码等]计算机毕业设计基于javawebmysql的旅游网址前后台-全新项目

文章目录 **软件开发环境及开发工具&#xff1a;****功能介绍&#xff1a;****论文截图&#xff1a;****实现&#xff1a;****代码:** 编程技术交流、源码分享、模板分享、网课教程 &#x1f427;裙&#xff1a;776871563 软件开发环境及开发工具&#xff1a; 前端使用技术&a…

Bulk RNA-seq上下游分析

Bulk-RNA-seq上下游分析还是相对简单的&#xff0c;这次我以mouse为例&#xff0c;进行Bulk-RNA-seq上下游分析&#xff0c;并进行对应的图片绘制。 上游分析 1.软件准备 #安装所需软件 sudo apt install fastqc sudo apt install hisat2 sudo apt install cutadapt sudo ap…

机器学习第5天:多项式回归与学习曲线

文章目录 多项式回归介绍 方法与代码 方法描述 分离多项式 学习曲线的作用 场景 学习曲线介绍 欠拟合曲线 示例 结论 过拟合曲线 示例 ​结论 多项式回归介绍 当数据不是线性时我们该如何处理呢&#xff0c;考虑如下数据 import matplotlib.pyplot as plt impo…

皮具生产ERP都有哪些功能?企业应当如选型

箱包皮具型号多、款式多、营销渠道广泛&#xff0c;各个销售平台的管理模式各不相同&#xff0c;而皮具生产企业经营策略和管理模式的差异&#xff0c;也导致企业在市场竞争力等方面参差不齐。 此外&#xff0c;不同的客户有不同的需求&#xff0c;再加上皮具行业竞争的加剧&a…

【鸿蒙应用ArkTS开发系列】- 云开发入门简介

目录 概述开发流程工程概览工程模板工程结构 工程创建与配置 概述 HarmonyOS云开发是DevEco Studio新推出的功能&#xff0c;可以让您在一个项目工程中&#xff0c;使用一种语言完成端侧和云侧功能的开发。 基于AppGallery Connect Serverless构建的云侧能力&#xff0c;开发…

直线插补-逐点比较法

直线插补-逐点比较法 逐点比较法四个节拍的工作流程如图所示举例1 逐点比较法 逐点比较法逐点比较法是通过逐点比较刀具与所需插补曲线之间的相对位置&#xff0c;确定刀具的进给方向&#xff0c;进而加工出工件轮廓的插补方法。刀具从加工起点开始&#xff0c;按照“靠近曲线…

ssrf学习笔记总结

SSRF概述 ​ 服务器会根据用户提交的URL 发送一个HTTP 请求。使用用户指定的URL&#xff0c;Web 应用可以获取图片或者文件资源等。典型的例子是百度识图功能。 ​ 如果没有对用户提交URL 和远端服务器所返回的信息做合适的验证或过滤&#xff0c;就有可能存在“请求伪造”的…

mount /dev/mapper/centos-root on sysroot failed处理

今天发现centos7重启开不进去系统 通过查看日志主要告警如下 修复挂载目录 xfs_repair /dev/mapper/centos-root不行加-L参数 xfs_repair -L /dev/mapper/centos-root重启 reboot