爬虫工作量由小到大的思维转变---<第二十六章 Scrapy通一通中间件的问题>-CSDN博客
(书接上面链接)自定义中间件玩不明白? 好吧,写个翻译的文档+点笔记,让中间件更通俗一点!!!
from scrapy import signals
# useful for handling different item types with a single interface
from itemadapter import is_item, ItemAdapter
class XXXSpiderMiddleware:
# Not all methods need to be defined. If a method is not defined,
# scrapy acts as if the spider middleware does not modify the
# passed objects.
#--翻译-># 并非所有方法都需要被定义。如果某个方法没有被定义,
# Scrapy 将会假设蜘蛛中间件不会修改传递的对象。
def from_crawler(cls, crawler):
# This method is used by Scrapy to create your spiders.
s = cls()
crawler.signals.connect(s.spider_opened, signal=signals.spider_opened)
return s
def process_spider_input(self, response, spider):
# Called for each response that goes through the spider
# middleware and into the spider.
# Should return None or raise an exception.
# --翻译--># 这个方法由Scrapy用于创建你的蜘蛛。
# 对于每个通过蜘蛛中间件到达蜘蛛的响应,会被调用。
# 应该返回None或引发异常。
# --->笔记:可以用它
# 预处理响应数据,例如解析、提取信息、清洗数据等;
# 对响应进行过滤或过程控制;
# 处理错误或异常情况;
# 添加自定义的功能或逻辑。
# 如果你不希望对响应进行任何修改或处理,你可以简单地返回None。
return None
def process_spider_output(self, response, result, spider):
# Called with the results returned from the Spider, after
# it has processed the response.
# Must return an iterable of Request, or item objects.
# 必须返回一个可迭代的Request对象或item对象。
for i in result:
yield i
def process_spider_exception(self, response, exception, spider):
# Called when a spider or process_spider_input() method
# (from other spider middleware) raises an exception.
# Should return either None or an iterable of Request or item objects.
翻译:当蜘蛛或 process_spider_input() 方法(来自其他爬虫中间件)引发异常时调用。
应该返回 None 或者一个可迭代的 Request 或 item 对象。
1.用于处理当蜘蛛或其他爬虫中间件的 process_spider_input() 方法引发异常时的情况
def process_start_requests(self, start_requests, spider):
# Called with the start requests of the spider, and works
# similarly to the process_spider_output() method, except
# that it doesn’t have a response associated.
# Must return only requests (not items).
翻译: 在蜘蛛开始请求时被调用,与 process_spider_output() 方法相似,
for r in start_requests:
yield r
def spider_opened(self, spider):
spider.logger.info("Spider opened: %s" % spider.name)
class JihaiEndDownloaderMiddleware:
# Not all methods need to be defined. If a method is not defined,
# scrapy acts as if the downloader middleware does not modify the
# passed objects.
# -->翻译:# 并非所有方法都需要被定义。如果某个方法没有被定义,
# # Scrapy 将会假设下载中间件不会修改传递的对象。
def from_crawler(cls, crawler):
# This method is used by Scrapy to create your spiders.
# 该方法由Scrapy用于创建你的爬虫。
s = cls()
crawler.signals.connect(s.spider_opened, signal=signals.spider_opened)
return s
def process_request(self, request, spider):
# Called for each request that goes through the downloader
# middleware.
# Must either:
# - return None: continue processing this request
# - or return a Response object
# - or return a Request object
# - or raise IgnoreRequest: process_exception() methods of
# installed downloader middleware will be called
# 对每个通过下载中间件的请求进行处理。
# 必须返回以下之一:
# - 返回 None:继续处理该请求
# - 或返回一个 Response 对象
# - 或返回一个 Request 对象
# - 或引发 IgnoreRequest:将调用已安装的下载中间件的 process_exception() 方法
return None
def process_response(self, request, response, spider):
# Called with the response returned from the downloader.
# Must either;
# - return a Response object
# - return a Request object
# - or raise IgnoreRequest
# print(f'中间件接收:{response.text}')
# 对从下载器返回的响应进行处理。
# 必须返回以下之一:
# - 返回一个 Response 对象
# - 或返回一个 Request 对象
# - 或引发 IgnoreRequest
# print(f'中间件接收:{response.text}')
return response
def process_exception(self, request, exception, spider):
# Called when a download handler or a process_request()
# (from other downloader middleware) raises an exception.
# Must either:
# - return None: continue processing this exception
# - return a Response object: stops process_exception() chain
# - return a Request object: stops process_exception() chain
# 当下载处理程序或 process_request() 方法(来自其他下载中间件)引发异常时调用。
# 必须返回以下之一:
# - 返回 None:继续处理该异常
# - 返回一个 Response 对象:停止 process_exception() 链
# - 返回一个 Request 对象:停止 process_exception() 链
def spider_opened(self, spider):
spider.logger.info("Spider opened: %s" % spider.name)
from_crawler(cls, crawler) 方法:
- 该方法被 Scrapy 用于创建下载中间件实例。
- 通常用于进行初始化操作和设置信号(Signal)。
- 推荐用于在下载中间件创建时进行一些必要的准备工作或设置。
process_request(self, request, spider) 方法:
- 对每个经过下载中间件的请求进行处理。
- 必须返回以下之一:
返回 None:继续处理该请求
或返回一个 Response 对象
-2.后续的下载中间件的 process_request 和 process_response 方法不会再被调用。
或返回一个 Request 对象
或引发 IgnoreRequest,将调用已安装的下载中间件的 process_exception() 方法。
-1.将会停止处理该请求,并调用已安装的其他下载中间件的 process_exception 方法。
-3.通常用于处理某个请求无法继续处理的情况,可以选择忽略该请求,或者在 process_exception 方法中进行处理。
- 用于自定义处理请求的行为,例如添加通用的请求信息、修改请求参数等。
--->补充: (如果请求有问题)你想让一个request彻底从队列中消失,减少他接下来的生命周期;最直接的办法是引发异常; 如果返回了None他还是会传给spider的;关键取决于你怎么处理你的异常(要不要记录,在哪里记录); 最直接的还是给他引发异常~这样他就直接用日志记录了,不用再脱了裤子放屁跑spider里面去报异常!
process_response(self, request, response, spider) 方法:
- 对从下载器返回的响应进行处理。
- 必须返回以下之一:
返回一个 Response 对象
或返回一个 Request 对象
from scrapy import Request
class RetryMiddleware:
def process_response(self, request, response, spider):
# 如果返回的响应状态码不是200,则进行重试
if response.status != 200:
# 修改原始的请求,并设置新的优先级和去重属性
retry_request = request.copy()
retry_request.priority += 1
retry_request.dont_filter = True # 设置不进行去重
return retry_request
return response
- 或引发 IgnoreRequest。
from scrapy.exceptions import IgnoreRequest
def process_response(self, request, response, spider):
if response.status >= 400:
raise IgnoreRequest # 引发 IgnoreRequest 异常
return response
引发 scrapy.exceptions.IgnoreRequest 异常,那么在引发异常后,Scrapy 将会终止当前请求的处理,并跳过后续的中间件和处理流程。--->通俗点:在 Scrapy 中,引发 scrapy.exceptions.IgnoreRequest 异常后,请求将不会传递给后续的中间件和爬虫进行处理。相当于告诉 Scrapy 忽略该请求,并继续处理下一个请求。 (----12月27日补)
- 用于自定义处理响应的行为,例如解析、提取数据等。
process_exception(self, request, exception, spider) 方法:
- 当下载处理程序或其他下载中间件的 process_request() 方法引发异常时调用。
- 必须返回以下之一:
返回 None:继续处理该异常
-1.如果希望继续处理异常并将其传递给其他下载中间件来处理,可以在 process_exception 方法中返回 None,让异常继续传递给后续的处理程序。
class CustomDownloaderMiddleware:
def process_exception(self, request, exception, spider):
# 其他处理代码...
# 获取异常的URL
url = request.url
# 使用日志记录器记录异常的URL
spider.logger.error(f"这个鬼url有问题,咱不要了;给他记一笔: {url}")
return None
- 返回一个 Response 对象:停止 process_exception() 链
- 返回一个 Request 对象:停止 process_exception() 链
- 用于自定义处理异常情况,例如处理超时、处理错误状态码等。
spider_opened(self, spider) 方法: