【Python从入门到进阶】52、CrawlSpider链接提取器的使用

news2025/1/12 0:57:19

接上篇《51、电影天堂网站多页面下载实战》
上一篇我们采用Scrapy框架多页面下载的模式来实现电影天堂网站的电影标题及图片抓取。本篇我们来学习基于规则进行跟踪和自动爬取网页数据的“特殊爬虫”CrawlSpider。

一、什么是CrawlSpider?

1、CrawlSpider的概念


CrawlSpider是Scrapy框架中的一个特殊爬虫类型,它主要用于处理需要遵循特定规则和链接提取的网站。通俗地说,CrawlSpider就像一个智能的探险家,它按照我们设定的规则(Rule)在网页上“探险”,自动跟踪链接、提取信息,并将这些信息收集起来供我们使用。

使用CrawlSpider时,我们首先需要定义一组规则,这些规则告诉爬虫如何跟踪链接以及如何提取信息。这些规则可以包括允许跟踪的链接类型、如何跟踪这些链接以及如何从页面中提取所需的信息等。

一旦规则定义好,CrawlSpider就开始工作了。它会根据规则自动跟踪页面中的链接,并根据规则提取器提取的链接规则来决定哪些链接应该被跟踪和爬取。在爬取过程中,CrawlSpider还会自动处理页面中的相对链接和绝对链接,确保能够正确地访问和爬取目标网站的内容。

此外,CrawlSpider还支持增量式爬取,这意味着它可以检测已经爬取过的页面并避免重复爬取,从而提高爬取效率。

举个例子来说明CrawlSpider的工作原理:假设我们想要爬取一个电商网站的商品信息。我们可以使用CrawlSpider来定义一组规则,指定要跟踪的商品详情页链接,以及如何从这些页面中提取商品名称、价格、描述等信息。然后,CrawlSpider会自动跟踪这些链接,按照规则提取信息,并将收集到的商品信息存储起来供我们使用。

2、CrawlSpider的作用

通过CrawlSpider,我们可以轻松实现深度爬取和广度爬取,有效应对复杂网站结构的挑战。

(1)规则化爬取:CrawlSpider通过定义一系列规则(Rule),来指导爬虫如何跟随链接、提取数据。这使得爬虫能够自动化地根据预设规则进行爬取,减少了手动编写复杂逻辑的需求。
(2)深度爬取:通过设置合适的Rule,CrawlSpider可以深入爬取网站的各个层级,确保不遗漏重要信息。这对于需要获取网站完整数据的场景非常有用。
(3)灵活应对网站结构变化:当网站结构发生变化时,我们只需要调整Rule中的链接提取规则或回调函数,而无需对整个爬虫进行大量修改。这使得CrawlSpider具有很高的灵活性和可维护性。

二、CrawlSpider与其他Scrapy组件的关系

CrawlSpider继承自Scrapy中的Spider基类。Spider是所有爬虫的基类,它定义了爬虫的基本结构和行为。CrawlSpider作为Spider的派生类,继承了Spider的基本功能,并添加了一些特定的规则和功能来实现自动爬取。

其次,CrawlSpider与Scrapy中的其他组件协同工作,共同完成了爬虫的整个流程。例如,Scrapy中的Engine组件负责控制爬虫的整个运行过程,它会根据配置的规则调用相应的Spider(包括CrawlSpider)进行爬取。同时,Downloader组件负责发送网络请求并接收响应,将响应内容传递给CrawlSpider进行处理。

在数据提取和解析方面,CrawlSpider依赖于Scrapy中的Selectors组件。Selectors提供了一套强大的选择器,用于从HTML或XML响应中提取数据。CrawlSpider使用这些选择器来根据规则提取链接和数据,并进行后续的处理。

此外,CrawlSpider还与Scrapy的Item Pipeline组件进行交互。Item Pipeline负责处理由Spider提取的数据,包括清洗、验证和存储等操作。CrawlSpider提取的数据会传递给Item Pipeline进行进一步的处理和存储。

最后,Scrapy还提供了中间件(Middleware)机制,开发者可以在爬虫运行过程中插入自定义的中间件来修改请求、响应或执行其他操作。CrawlSpider可以与其他中间件进行集成,以实现更复杂的爬取逻辑和自定义功能。

三、CrawlSpider基础知识

1、LinkExtractors链接提取器

在Scrapy框架中,LinkExtractors(链接提取器)是一个非常重要的组件,专门用于从网页的HTML内容中提取出链接。这些链接可能是指向网站内部其他页面的,也可能是指向外部网站的。通过LinkExtractors,我们可以方便地获取到这些链接,从而进行后续的爬取操作。

(1)基本用法

使用LinkExtractors提取链接的基本步骤如下:
①导入必要的模块:首先,需要导入scrapy.linkextractors模块中的LinkExtractor类。

from scrapy.linkextractors import LinkExtractor

②创建链接提取器实例:接下来,创建一个LinkExtractor的实例。在创建时,可以传入一些参数来定制链接提取的行为。

le = LinkExtractor()

③从响应中提取链接:然后,使用链接提取器的extract_links方法从Scrapy的响应对象(Response)中提取链接。这个方法会返回一个包含提取到的链接的列表。

links = le.extract_links(response)

④处理提取到的链接:最后,可以遍历这个链接列表,对每个链接进行进一步的处理,比如发起新的请求进行爬取。

(2)过滤规则与限制条件

LinkExtractor提供了丰富的参数来定制链接提取的过滤规则和限制条件,确保只提取到我们感兴趣的链接。
①allow参数:这是一个正则表达式(或者一组正则表达式),用于匹配要提取的链接的URL。只有匹配成功的链接才会被提取出来。

le = LinkExtractor(allow=r'/category/\d+')

上面的例子中,只有URL中包含/category/后面跟着一串数字的链接会被提取。
②deny参数:与allow相反,deny参数用于指定要排除的链接。即使链接匹配了allow规则,但如果同时也匹配了deny规则,那么它也不会被提取出来。

le = LinkExtractor(allow=r'/', deny=r'/exclude/path/')

在这个例子中,虽然所有根路径下的链接都会被考虑,但是/exclude/path/下的链接会被排除。
③restrict_xpaths或restrict_css参数:这两个参数允许你基于HTML文档的特定部分来提取链接。你可以传入XPath或CSS选择器来指定要从哪个元素中提取链接。

le = LinkExtractor(restrict_xpaths='//div[@class="content"]')

上面的例子中,只有位于class为"content"的div元素内部的链接会被提取。
④其他参数:LinkExtractor还提供了其他一些参数,如tags(用于指定从哪些HTML标签中提取链接)、attrs(用于指定从HTML标签的哪些属性中提取链接)等,用于进一步定制链接提取的行为。

通过合理地设置这些参数,我们可以精确地控制LinkExtractor提取链接的行为,确保只获取到我们真正需要的链接,从而提高爬虫的效率和准确性。

2、Rule规则

在Scrapy框架中,Rule(规则)是一个核心概念,特别是在CrawlSpider类中,它扮演着至关重要的角色。Rule定义了爬虫如何跟随链接以及如何从这些链接中提取数据。下面,我们将详细讲解Rule的组成与含义,以及跟随链接与回调函数的关系。

(1)Rule的组成与含义

Rule主要由两部分组成:链接提取器(LinkExtractor)回调函数(callback)
●链接提取器(LinkExtractor):负责从爬取的页面中提取出符合特定条件的链接。这些条件可以是链接的文本内容、链接的URL格式等。通过设置LinkExtractor的参数,我们可以精确地控制哪些链接会被提取出来。
●回调函数(callback):是一个函数,当爬虫跟随链接到达新的页面时,这个函数会被调用。回调函数的作用是对新页面进行解析和数据处理。你可以在回调函数中编写自己的解析逻辑,提取页面中的信息,并将信息存储或进行后续操作。
综合来说,Rule就是Scrapy框架中的一个指令,它告诉爬虫:“当你遇到符合特定条件的链接时,使用指定的回调函数来处理这些链接”。

(2)跟随链接与回调函数

在Scrapy中,跟随链接和回调函数是Rule中紧密相关的两个部分。
●跟随链接:当爬虫遇到由LinkExtractor提取出来的链接时,它会跟随这些链接,即发送新的请求去获取这些链接指向的页面内容。这是爬虫进行深度爬取的关键步骤,使得爬虫能够遍历整个网站或网站的特定部分。
●回调函数:当爬虫成功获取到链接指向的页面内容后,它会调用与该链接关联的回调函数。回调函数负责解析页面内容,提取出所需的信息。这通常涉及到使用Scrapy的Selectors或其他解析库来从HTML或XML中抽取数据。
通过合理设置Rule中的链接提取器和回调函数,我们可以实现对特定网站或网站特定部分的精确爬取。例如,我们可以设置Rule只跟随符合特定URL模式的链接,并在回调函数中只提取页面中的特定信息。
总的来说,Rule是Scrapy框架中实现自动化、定制化爬取的关键工具。通过灵活配置Rule,我们可以构建出高效、准确的爬虫程序,满足各种复杂的爬取需求。

3、Rule规则与LinkExtractor结合实例

【使用Rule规则爬取一个新闻网站的特定类别文章】
假设我们有一个新闻网站,该网站有多个类别,并且每个类别下的文章都位于不同的URL路径下。我们的目标是爬取其中某个特定类别(比如“科技”类别)下的所有文章标题和链接。
首先,我们需要定义一个CrawlSpider,并为其设置相应的Rule规则。下面是一个简化的例子:

import scrapy  
from scrapy.linkextractors import LinkExtractor  
from scrapy.spiders import CrawlSpider, Rule  
from myproject.items import MyProjectItem  # 假设我们有一个自定义的Item类  
  
class NewsSpider(CrawlSpider):  
    name = 'news'  
    allowed_domains = ['example.com']  
    start_urls = ['http://www.example.com/tech']  # 假设这是“科技”类别的起始页面  
  
    rules = (  
        Rule(LinkExtractor(allow=r'/tech/article/\d+'), callback='parse_article', follow=True),  
    )  
  
    def parse_article(self, response):  
        item = MyProjectItem()  
        item['title'] = response.css('h1::text').get()  # 假设文章标题在h1标签中  
        item['link'] = response.url  
        return item

在这个例子中:

●NewsSpider继承自CrawlSpider。
●name属性定义了爬虫的名字,这里是'news'。
●allowed_domains指定了允许爬取的域名,这里是'example.com'。
●start_urls是爬虫开始爬取的URL列表,这里我们指定了“科技”类别的起始页面。

Rule规则设置:

●我们创建了一个Rule对象,并将其添加到rules元组中。
●LinkExtractor(allow=r'/tech/article/\d+')是一个链接提取器,它使用正则表达式来匹配以/tech/article/开头并且后面跟着一串数字的URL。这些URL很可能是“科技”类别下的文章页面。
●callback='parse_article'指定了当爬虫访问到符合规则的链接时,应该调用parse_article方法来处理响应内容。
●follow=True表示如果parse_article方法返回了更多的Request对象,爬虫会继续跟随这些链接。在本例中,我们假设每个文章页面没有其他需要跟进的链接,因此这个参数其实可以省略或者设置为False。

回调函数设置:

●parse_article方法是一个回调函数,它接收一个response对象作为参数。
●在这个方法中,我们使用Scrapy的CSS选择器来从响应的HTML中提取文章标题,并将其存储到MyProjectItem对象中。同时,我们也存储了当前页面的URL作为链接。
●最后,方法返回了填充好的item对象,Scrapy的Item Pipeline会负责后续的处理,比如存储到数据库或导出为文件。

通过运行这个爬虫,Scrapy将会从指定的起始页面开始,跟随匹配LinkExtractor规则的链接,并对每个链接使用parse_article方法进行解析和提取数据。这样,我们就能爬取到“科技”类别下的所有文章标题和链接了。

四、CrawlSpider的使用步骤

我们的测试目标,是“读书网”(www.dushu.com)下面的“世界名著”(https://www.dushu.com/book/1175.html)的书籍分类链接:


这里面的书籍列表,我们查看最下面的分页按钮,是看不到最终有多少页的:

但是我们通过F12查看分页按钮的Html代码:

是可以看到每一页的翻页逻辑的,其实就是“/book/1175_x.html”,其中的“x”就是页面数,是第1页就是1,第10页就是10。
我们下面就使用CrawlSpider按照规则爬取每一页数据。

1、创建Scrapy项目与Spider

我们打开编辑器,在控制台通过“scrapy startproject 项目名”命令,创建一个新的爬虫项目,用来抓取读书网的数据:

scrapy startproject scrapy_dushuwang

然后打开这个项目,使用“scrapy genspider 爬虫名 网站地址”命令创建一个爬虫:

cd scrapy_dushuwang  
scrapy genspider myspider www.dushu.com/book/1175.html

2、定义CrawlSpider类

在spiders目录下找到myspider.py文件,将其修改为继承自CrawlSpider。同时我们需要从scrapy.spiders导入CrawlSpider和Rule,以及从scrapy.linkextractors导入LinkExtractor,代码如下

import scrapy
from scrapy.spiders import CrawlSpider, Rule
from scrapy.linkextractors import LinkExtractor
# 自定义的Item类
from scrapy_dushuwang.items import ScrapyDushuwangItem

class MyspiderSpider(CrawlSpider):
    name = "myspider"
    allowed_domains = ["www.dushu.com"]
    start_urls = ["https://www.dushu.com/book/1175.html"]

    # 接下来,我们将在这里定义rules和回调函数

3、配置LinkExtractors与Rule

在MySpider类中,我们需要配置LinkExtractors和Rule来定义爬虫如何跟随链接以及提取数据。

rules = (  
    Rule(LinkExtractor(allow=r'/book/1175_\d+\.html'), callback='parse_item', follow=False),  
    # 可以添加更多Rule来处理不同的链接模式  
)

在上述代码中,LinkExtractor(allow=r'/book/1175__\d+\.html')是一个链接提取器,它会匹配所有以“/book/1175_\d+\.html”匹配的URL。callback='parse_item'指定了当爬虫访问到这些链接时,应该调用parse_item方法处理响应内容。follow=True表示如果parse_item方法返回了更多的Request对象,爬虫会继续跟进这些链接,这里我们为了演示方便,不进行深度搜索了,只搜索本页面信息即可,所以设置为了False

4、编写解析函数处理页面数据

接下来需要定义parse_item方法(或你在Rule中指定的任何其他回调函数),用来解析页面并提取所需的数据。
这里我们主要抓取的是每一页图书列表的标题:

正则表达式为“//div[@class="book-info"]//a/@title”。代码编写如下:

def parse_item(self, response):
    a_list = response.xpath('//div[@class="book-info"]//a')
    for a in a_list:
        title = a.xpath('./@title').extract_first()
        titles = ScrapyDushuwangItem()
        if str(title) == 'None':
            print("title为空,无效a标签")
        else:
            titles['title'] = title
            # 这里还可以获取你其他想获取的属性...
            yield titles

其中的ScrapyDushuwangItem类的定义(items.py文件):

import scrapy

class ScrapyDushuwangItem(scrapy.Item):
    title = scrapy.Field()
    pass

在上面的代码中,我们使用了CSS选择器来从HTML中提取数据。你可以根据需要调整选择器来匹配正确的元素。提取的数据被存储在一个Scrapy Item对象中,该对象之后会被送到Item Pipeline进行进一步的处理(比如保存到数据库或文件中)。
最后记得在settings.py中将管道开启:

ITEM_PIPELINES = {
   "scrapy_dushuwang.pipelines.ScrapyDushuwangPipeline": 300,
}

pipelines.py的代码为:

class ScrapyDushuwangPipeline:
    # 1、在爬虫文件开始执行前执行的方法
    def open_spider(self, spider):
        print('++++++++爬虫开始++++++++')
        # 这里写入文件需要用'a'追加模式,而不是'w'写入模式,因为写入模式会覆盖之前写的
        self.fp = open('book.json', 'a', encoding='utf-8')  # 打开文件写入

    # 2、爬虫文件执行时,返回数据时执行的方法
    # process_item函数中的item,就是爬虫文件yield的book对象
    def process_item(self, item, spider):
        # write方法必须写一个字符串,而不能是其他的对象
        self.fp.write(str(item)+'\n')  # 将爬取信息写入文件
        return item

    # 在爬虫文件开始执行后执行的方法
    def close_spider(self, spider):
        print('++++++++爬虫结束++++++++')
        self.fp.close()  # 关闭文件写入

5、运行项目并查看结果

在命令行中运行Scrapy项目来开始爬取数据:

scrapy crawl myspider

Scrapy将开始执行我们定义的爬虫,并输出爬取到的数据到book.json中:

以上就是关于Scrapy框架中有关CrawlSpider的技术介绍。下一篇我们来讲解Scrapy的日志信息及日志级别。

参考:尚硅谷Python爬虫教程小白零基础速通
转载请注明出处:https://guangzai.blog.csdn.net/article/details/137213473

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1562724.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

互联网轻量级框架整合之JavaEE基础I

不得不解释得几个概念 JavaEE SUN公司提出来的企业版Java开发中间件,主要用于企业级互联网系统的框架搭建,同时因为Java语言优质的平台无关性、可移植性、健壮性、支持多线程和安全性等优势,其迅速成为构建企业互联网平台的主流技术&#x…

【技巧】Leetcode 287. 寻找重复数【中等】

寻找重复数 给定一个包含 n 1 个整数的数组 nums ,其数字都在 [1, n] 范围内(包括 1 和 n),可知至少存在一个重复的整数。 假设 nums 只有 一个重复的整数 ,返回 这个重复的数 。 你设计的解决方案必须 不修改 数组…

搜维尔科技:Manus Prime 3 Mocap数据手套,体验极致的每指触觉!

完全适用于VR虚拟现实场景 特斯拉也在使用的量子数据 Tesla 目前正在使用 MANUS Quantum Metagloves创建一个数据集,帮助他们训练 Tesla 机器人。 量子数据训练QUANTUM AI 我们以类似的方式使用 Quantum Metagloves 来生成一流的手指跟踪数据集,并将其…

yolov5目标检测可视化界面pyside6源码(无登录版)

一、软件简介: 这是基于yolov5-7.0目标检测实现的的可视化目标检测源码 本套项目没有用户登录的功能,如需用户登录版,看另一篇文章:yolov5pyside6登录用户管理目标检测可视化源码_yolov5用户登入功能-CSDN博客 ①程序中图片和图标…

护眼台灯怎么选看哪些指标?护眼灯十大品牌推荐

在追求高效工作与学习的同时,如何保护视力健康,避免长时间用眼带来的疲劳与伤害,已成为现代人关注的焦点。护眼台灯作为提升用眼环境的重要工具,其选择显得尤为关键。那么,面对市面上琳琅满目的护眼台灯产品&#xff0…

分治dp,LeetCode 894. 所有可能的真二叉树

目录 一、题目 1、题目描述 2、接口描述 ​cpp python3 3、原题链接 二、解题报告 1、思路分析 F1 回溯 F2 动态规划 2、复杂度 3、代码详解 ​分治 cpp python3 dp cpp python3 一、题目 1、题目描述 给你一个整数 n ,请你找出所有可能含 n 个节…

数学矩阵(详解)

矩阵乘法 知阵乘法是《线性代数》中的基础内容,但在考察数学的算法题中也会出现。 本节我们学习基础的矩阵乘法规则。 每个矩阵会有一个行数和一个列数,只有当相乘的两个矩阵的左矩阵的列数等于右矩阵的行数 时,才能相乘,否则不允…

蓝桥杯单片机速成2-动态数码管数码管显示

一、原理图 段选给1是选中 ,该数码管是共阳极的数码管,位选输入0才会电亮一位 二、代码分析 /************* 本地常量声明 **************/ u8 code t_display[]{ //标准字库 // 0 1 2 3 4 5 6 7 8…

Java复习第十五天学习笔记(JS),附有道云笔记链接

一、JS简介 JS: 1、直接嵌入HTML页面。 2、由浏览器解释执行代码,不进行预编译。 解释型语言和编译型语言 JS:解释型语言、弱类型语言 Java:编译型语言、强类型语言 变量: var num 100; variable 用var来定义一个变量。 int num 1…

kubernetes(K8S)学习(九):K8S之日志监控

K8S之日志监控 一、Log and Monitor1.1 Log1.1.1 容器级别1.1.2 Pod级别1.1.3 组件服务级别1.1.4 LogPilot ES Kibana 1.2 Monitor1.2.1 Prometheus简介1.2.2 Prometheus架构1.2.3 Prometheus知识普及1.2.4 数据采集1.2.5 Prometheus Grafana 二、Trouble Shooting&#xff…

ARM64架构栈帧以及帧指针FP

文章目录 前言一、arm64架构寄存器简介1.1 异常等级1.2 通用寄存器1.3 ARM64架构ABI 二、ARM64架构函数调用标准2.1 AArch64过程调用标准简介2.2 通用寄存器中的参数 三、demo分析3.1 main函数3.2 funb3.3 funa 四、栈帧总结五、demo演示参考资料 前言 这篇文章描述了 x86_64架…

原生小程序开发性能优化指南

性能优化指南 1.骨架屏 业务可以在数据加载完成之前用骨架屏幕来占位,提升体验。 2.包大小优化 减小包中静态资源,例如图片文件,可将图片进行压缩降低文件体积。无用文件、函数、样式剔除。除了部分用于容错的图片必须放在代码包&#xf…

3.docker容器相关命令

docker容器相关命令 容器是根据镜像创建的 docker images 1.查看容器 docker ps docker ps -a #查看所有容器 2.创建容器 docker run -itd --name XXX nginx /bin/bash docker run -it -name xxxxx centos:7 参数:-i :一直运行着 -t : 给容器分配一个终端…

CentOS7安装DockerCompose

1.CentOS7安装DockerCompose 1.1.下载 Linux下需要通过命令下载: # 安装 curl -L https://github.com/docker/compose/releases/download/1.23.1/docker-compose-uname -s-uname -m > /usr/local/bin/docker-compose1.2.修改文件权限 修改文件权限&#xff1a…

汽车电子行业知识:什么是数字钥匙?

文章目录 1. 什么是数字钥匙?2. 数字钥匙有哪些类型?3. 汽车数字钥匙4. 数字钥匙包含哪些技术5. 汽车数字钥匙的发展趋势 1. 什么是数字钥匙? 数字钥匙通常指的是一种安全工具,它使用数字代码或密码来授权对特定系统或服务的访问。…

练习 13 Web [极客大挑战 2019]Secret File

php伪协议请求&#xff0c;php代码审计 参考&#xff1a;BUUCTF__[极客大挑战 2019]Secret File_题解 没有任何上传和登录页面 查看前端源码 发现 <a id"master" href"./Archive_room.php" style"background-color:#000000;height:70px;width:20…

Linux中间件(nginx搭建、LNMP服务搭建)

目录 一、安装nginx 第一步、下载nginx的压缩包到Linux中 ​第二步、安装依赖 第三步&#xff1a;安装 nginx 第四步&#xff1a;启动nginx 第五步&#xff1a;测试nginx 二、 nginx的配置文件 nginx.conf文件内容解读 案例&#xff1a;发布多个网站 二、lamp/lnmp …

springcloud基本使用二(远程调用)

创建两个springboot maven子项目 子项目名称分别为order-server和user-server 配置user-server子项目: 所需依赖: <dependency><groupId>org.springframework.boot</groupId><artifactId>spring-boot-starter-web</artifactId> </dependenc…

如何用Git在终端以可视化的方式查看提交情况

2024年4月2日&#xff0c;周二上午 要使用 Git 查看树状提交情况&#xff0c;可以使用 git log 命令的 --graph 选项。这个选项会以树状图的形式显示提交历史&#xff0c;清晰地展示每个提交的分支合并情况和分支间的关系。 git log --graph 除了 --graph 选项外&#xff0c;还…

算法学习——LeetCode力扣动态规划篇1(509. 斐波那契数、70. 爬楼梯、746. 使用最小花费爬楼梯、62. 不同路径、63. 不同路径 II)

算法学习——LeetCode力扣动态规划篇1 509. 斐波那契数 509. 斐波那契数 - 力扣&#xff08;LeetCode&#xff09; 描述 斐波那契数 &#xff08;通常用 F(n) 表示&#xff09;形成的序列称为 斐波那契数列 。该数列由 0 和 1 开始&#xff0c;后面的每一项数字都是前面两项…