爬虫工作量由小到大的思维转变---<第七十三章 > Scrapy爬虫详解一下HTTPERROE的问题

news2025/1/11 21:37:49

前言:

        在我们的日常工作中,有时会忽略一些工具或组件的重要性,直到它们引起一连串的问题,我们才意识到它们的价值。正如在Scrapy框架中的HttpErrorMiddleware(HTTP错误中间件)一样,在开始时,我并没有太重视它。但在实际工作中由于它引起的问题连贯性,让我深刻认识到了对其进行深入理解的必要性。对此,有必要在这个章节对HttpErrorMiddleware进行一番详尽的分析。

        问题也不会太多,主要讲的就是几个点;关于httperror在前文有过一个简单版本的论述

爬虫工作量由小到大的思维转变---<第五十三章 Scrapy 降维挖掘---中间件系列(2)> (HttpErrorMiddleware、OffsiteMiddleware和RefererMiddl)-CSDN博客

可以先看这篇文章~ 

正文:

        首先,通过源码剖析,我们可以了解到HttpErrorMiddleware的基本作用:它负责处理Spider的HTTP错误,根据配置来决定是否忽略非200响应。简单来说,当响应状态码在200到300之间,Scrapy会认为这是一个成功的响应,并继续其它处理。然而,如果响应状态码不在这个范围内,中间件将决定基于你的设置是否将其忽略:也就是说,如果你通过设置handle_httpstatus_all或
handle_httpstatus_list来明确指出希望接收非200响应,Scrapy会相应地处理这些响应而不是简单地抛出异常。

1.源码刨析:

        a.对应路径:

        b.对应源码:

"""
HttpError Spider Middleware

该中间件处理Spider的HTTP错误。它根据配置决定是否忽略非200响应。

See documentation in docs/topics/spider-middleware.rst
"""

import logging

from scrapy.exceptions import IgnoreRequest

logger = logging.getLogger(__name__)

# HttpError类继承自IgnoreRequest,用于表示被过滤的非200响应。
class HttpError(IgnoreRequest):
    """表示一个非200响应被过滤的异常类。

    Attributes:
        response: 发生错误的响应对象。
    """

    def __init__(self, response, *args, **kwargs):
        self.response = response
        super().__init__(*args, **kwargs)

# 处理HTTP错误的中间件类。
class HttpErrorMiddleware:
    """
    处理Spider输入时的HTTP错误。

    Attributes:
        handle_httpstatus_all: 布尔值,配置项,表示是否允许所有非200响应。
        handle_httpstatus_list: 列表,配置项,包含允许的非200响应状态码。
    """

    @classmethod
    def from_crawler(cls, crawler):
        """从爬虫实例创建中间件对象。

        Args:
            crawler: Crawler实例。

        Returns:
            HttpErrorMiddleware实例。
        """
        return cls(crawler.settings)

    def __init__(self, settings):
        """初始化中间件。

        Args:
            settings: Scrapy设置对象。
        """
        self.handle_httpstatus_all = settings.getbool("HTTPERROR_ALLOW_ALL")
        self.handle_httpstatus_list = settings.getlist("HTTPERROR_ALLOWED_CODES")

    def process_spider_input(self, response, spider):
        """
        处理Spider输入的响应。

        Args:
            response: 响应对象。
            spider: 当前处理的Spider。

        Returns:
            如果响应应该被忽略,则返回None;否则将响应传递给下一个中间件。
        """
        # 如果响应状态码是200到300之间,则认为是成功响应,直接返回。
        if 200 <= response.status < 300:
            return
        meta = response.meta
        # 如果设置为允许所有非200响应,则直接返回。
        if meta.get("handle_httpstatus_all", False):
            return
        # 如果响应元数据中有指定允许的状态码列表,则只处理列表中的状态码。
        if "handle_httpstatus_list" in meta:
            allowed_statuses = meta["handle_httpstatus_list"]
        elif self.handle_httpstatus_all:
            return
        else:
            # 默认情况下,使用Spider或中间件的允许状态码列表。
            allowed_statuses = getattr(
                spider, "handle_httpstatus_list", self.handle_httpstatus_list
            )
        # 如果响应状态码在允许的列表中,则认为是有效响应,返回None。
        if response.status in allowed_statuses:
            return
        # 如果响应状态码未在允许的范围内,则抛出HttpError异常。
        raise HttpError(response, "Ignoring non-200 response")

    def process_spider_exception(self, response, exception, spider):
        """
        处理Spider异常。

        Args:
            response: 响应对象。
            exception: 异常对象。
            spider: 当前处理的Spider。

        Returns:
            如果异常为HttpError,则记录日志并忽略该响应;否则将异常传递给下一个中间件。
        """
        # 如果异常为HttpError,则认为是需要忽略的响应。
        if isinstance(exception, HttpError):
            spider.crawler.stats.inc_value("httperror/response_ignored_count")
            spider.crawler.stats.inc_value(
                f"httperror/response_ignored_status_count/{response.status}"
            )
            logger.info(
                "Ignoring response %(response)r: HTTP status code is not handled or not allowed",
                {"response": response},
                extra={"spider": spider},
            )
            return []

2.对代码进行总结:

        a.运行机制

  1.                 当status在【200,300】内的时候,直接返回(无异常);
  2.                 当status开始出现问题的时候,看你是否设置允许状态码;

--- 在spider里面,发送请求的时候会在mata里面带着handle_httpstatus_list或者handle_httpstatus_all  ;-->如果是all,表示所有的状态码都不会引发httpError的问题;而handle_httpstatus_list则是需要在集合里面设置对应允许的一些状态码;

--- 也可以直接在setting里面直接进行handle_httpstatus_list 的设置;(如图)

b.报错机制

在允许范围内的status通通不会报错,就没有

process_spider_exception

什么事了;   只有不在范围内的错误,会进行一个统计;

        这种设计非常灵活,允许开发者根据实际需求决定哪些HTTP状态码是可接受的,而哪些应当被视为错误。比如,在某些应用场景下,接收到404响应可能是正常的一部分,不应该中断整个爬取流程。因此,通过合理配置HttpErrorMiddleware,就可以实现这样的需求。

3.总结:

        HttpErrorMiddleware是Scrapy框架中一个非常重要的组件,尤其是在处理复杂网页爬取时。它不仅能帮助我们更灵活地处理HTTP错误,还能通过设置,让我们的爬虫更加健壮。了解它的工作原理和如何配置,对于开发高效的爬虫程序来说是非常关键的。通过对源码的解析和应用实践,我们能更好地利用这个中间件,优化我们的网络爬虫,不仅提升数据采集效率,还能保证数据的质量和完整性。

        总的来说,HttpErrorMiddleware加深了我们对Scrapy框架灵活性和强大功能的认识,是值得每个使用Scrapy框架的开发者深入了解和掌握的知识点。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1669330.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

JVM调优:JVM中的垃圾收集器详解

JVM&#xff08;Java Virtual Machine&#xff09;垃圾收集器是Java虚拟机中的一个重要组件&#xff0c;负责自动管理Java堆内存中的对象。垃圾收集器的主要任务是找出那些不再被程序使用的对象&#xff0c;并释放它们占用的内存&#xff0c;以便为新的对象分配空间。这个过程被…

ES6 笔记02

目录 01 对象的扩展 02 链判断运算符 03 属性名表达式 04 Symbol 类型 05 set集合的使用 06 Map集合的使用 07 Set集合和Map集合的遍历方式 08 iterator迭代器 01 对象的扩展 对象的属性和方法的简洁表示: es6允许在字面量对象里面直接写变量名 let 变量名变量值; let …

Hexo博客重新部署与Git配置

由于电脑重装了一次&#xff0c;发现之前Hexo与NexT主题版本过于落后&#xff0c;重新部署了下。 1 Node.js与git安装 这一块安装就不赘述了。去两个官网找安装文件安装即可。 node.js git 打开git以后配置的几个关键命令行。 git config --global user.name "你的gi…

langchain 自定义模型使用

目录 背景 参考 实现 调用 背景 在公司有大模型可以通过 api 方式调用&#xff0c;想使用 langchain 框架调用&#xff0c;langchina 已经封装好大部分模型了&#xff0c;但自己公司的模型不支持&#xff0c;想使用&#xff0c;相当于自定义模型 参考 Custom Chat Model …

基于Springboot的家教管理系统(有报告)。Javaee项目,springboot项目。

演示视频&#xff1a; 基于Springboot的家教管理系统&#xff08;有报告&#xff09;。Javaee项目&#xff0c;springboot项目。 项目介绍&#xff1a; 采用M&#xff08;model&#xff09;V&#xff08;view&#xff09;C&#xff08;controller&#xff09;三层体系结构&…

Idea插件Easy-Code模板文件

目录 需要引入的依赖application.yml.vmapplication-dev.yml.vmresult.java.vm (统一返回集)resultCodeEnum.java.vm &#xff08;统一返回集需要的枚举类&#xff09;globalCorsConfig.java.vm &#xff08;全局跨域处理&#xff09;entity.java.vm &#xff08;实体类&#x…

【科研绘图 基础版】01 使用Python绘制时间序列折线图

下面这段代码绘制了一个折线图&#xff0c;其中包含了实际平均温度数据和使用线性回归模型预测的平均温度数据&#xff08;用来近似地表示数据的整体趋势&#xff09;。 具体来说&#xff0c;图中的横轴表示年份&#xff0c;纵轴表示平均温度。蓝色的实心线代表了实际的平均温度…

【Mac】Perfectly Clear Workbench(智能图像清晰修复软件)安装教程

软件介绍 Perfectly Clear Workbench是由Athentech Imaging开发的一款图像处理软件&#xff0c;旨在帮助用户快速、轻松地优化和改善数字照片的质量。以下是Perfectly Clear Workbench的一些主要特点和功能&#xff1a; 1.自动图像优化 该软件采用先进的图像处理算法&#xf…

StarRocks 【新一代MPP数据库】

1、StarRocks 1.1、StarRocks 简介 StarRocks 是新一代极速全场景 MPP (Massively Parallel Processing&#xff0c;MPP数据库是一种基于大规模并行处理技术的数据库系统&#xff0c;旨在高效处理大量数据。) 数据库。StarRocks 的愿景是能够让用户的数据分析变得更加简单和敏…

设计模式:迭代器模式(Iterator)

设计模式&#xff1a;迭代器模式&#xff08;Iterator&#xff09; 设计模式&#xff1a;迭代器模式&#xff08;Iterator&#xff09;模式动机模式定义模式结构时序图模式实现在单线程环境下的测试在多线程环境下的测试模式分析优缺点适用场景应用场景参考 设计模式&#xff1…

第五百回 Get路由管理

文章目录 1. 概念介绍2. 使用方法2.1 普通路由2.2 命名路由 3. 示例代码4. 内容总结 我们在上一章回中介绍了"使用get显示Dialog"相关的内容&#xff0c;本章回中将介绍使用get进行路由管理.闲话休提&#xff0c;让我们一起Talk Flutter吧。 1. 概念介绍 我们在本章…

什么是分库分表

读写分离主要应对的是数据库读并发&#xff0c;没有解决数据库存储问题。试想一下&#xff1a;如果 MySQL 一张表的数据量过大怎么办? 答案当然是分库分表 什么是分库&#xff1f; 分库 就是将数据库中的数据分散到不同的数据库上&#xff0c;可以垂直分库&#xff0c;也可…

一二三应用开发平台使用手册——系统管理-系统参数系统日志-使用说明

系统参数 概述 通过配置化&#xff0c;可以提升系统灵活性和运维便利性。 配置化往往分为两大类&#xff0c;一类是偏技术层面的&#xff0c;如平台的发送邮件提醒的邮箱&#xff0c;相对固化&#xff0c;不会频繁调整&#xff0c;一般放在系统的配置文件里&#xff0c;如spr…

目标检测——印度车辆数据集

引言 亲爱的读者们&#xff0c;您是否在寻找某个特定的数据集&#xff0c;用于研究或项目实践&#xff1f;欢迎您在评论区留言&#xff0c;或者通过公众号私信告诉我&#xff0c;您想要的数据集的类型主题。小编会竭尽全力为您寻找&#xff0c;并在找到后第一时间与您分享。 …

MySQL前缀索引、脏页和干净页、COUNT(*)讨论、表删除内存问题

文章目录 如何加索引如何给身份证号添加索引 SQL语句变慢脏页 (Dirty Pages)干净页 (Clean Pages)为何区分脏页和干净页处理脏页管理策略 flush如何控制 为什么删除表数据后表文件大小不变问题背景核心原因数据存储方式参数影响 解决方案1. 调整innodb_file_per_table设置2. 使…

2.4 输入和显示

本节必须掌握的知识点&#xff1a; 示例五源代码 代码分析 汇编解析 2.4.1 示例五 ■格式化输入函数scanf scanf函数可以从键盘读取输入的信息。scanf函数同样可以像printf函数那样&#xff0c;通过转换说明“%d”来限制函数只能读取十进制数。scanf函数的参数为可变参数…

雷军-2022.8小米创业思考-6-互联网七字诀之快:天下武功,唯快不破;快不是目的,快是手段;不要用战术上的勤奋掩盖战略上的懒惰。

第六章 互联网七字诀 专注、极致、口碑、快&#xff0c;这就是我总结的互联网七字诀&#xff0c;也是我对互联网思维的高度概括。 快 我们期待非常多的快&#xff0c;比如研发进展快、库存周转快、资金回笼快等等。但在这里&#xff0c;我们集中讨论的是公司在业务发展和面对…

【5分钟学会一个知识点】01.Elasticsearch基本操作-增删改查

目录 【5分钟学会一个知识点-探索现代搜索与分析引擎的魅力】01.Elasticsearch基本操作-增删改查1.基本操作1.1索引操作1.2文档操作1.3查询1.4修改数据1.5查询1.5.1条件查询1.5.1.1遍历所有的索引1.5.1.2查询某个索引1.5.1.3条件查询1&#xff1a;使用GET url传参数1.5.1.4条件…

18、案例实战:上亿请求轻松应对,看年轻代垃圾回收如何助力电商性能飞跃!

18.1、背景引入 我们通常会通过案例分析&#xff0c;来指导大家如何在不同的场景下&#xff0c;预测系统的内存使用模型。我们需要合理地调整新生代、老年代、Eden和Survivor各个区域的内存大小&#xff0c;然后尽可能地优化参数&#xff0c;以减少新生代对象进入老年代的情况…

An 2024下载

An2024下载&#xff1a; 百度网盘下载https://pan.baidu.com/s/1cQQCFL16OUY1G6uQWgDbSg?pwdSIMS Adobe Animate 2024&#xff0c;作为Flash技术的进化顶点&#xff0c;是Adobe匠心打造的动画与交互内容创作的旗舰软件。这款工具赋予设计师与开发者前所未有的创意自由&#x…