探索Scrapy-spider：构建高效网络爬虫

news2026/2/14 18:12:15

Spider简介

Scrapy中的Spider是用于定义和执行数据抓取逻辑的核心组件。Spider负责从指定的网站抓取数据，并定义了如何跟踪链接、解析内容以及提取数据的规则。它允许您定制化地指定要抓取的网站、页面和所需的信息。Spider的作用是按照预定的规则爬取网页，从中提取所需的数据，并将数据传递给Scrapy引擎进行处理。

以下是一个简单的Scrapy Spider示例代码：


import scrapy

class MySpider(scrapy.Spider):
    name = 'example_spider'
    start_urls = ['http://example.com']

    def parse(self, response):
        # 在这里编写处理响应的逻辑
        # 可以使用XPath或CSS选择器提取数据
        title = response.css('title::text').get()
        body = response.css('body::text').get()

        # 可以将提取到的数据通过yield传递给Pipeline进行处理
        yield {
            'title': title,
            'body': body
        }

在这个示例中：

MySpider是一个继承自scrapy.Spider的Spider类。
name属性定义了Spider的名称。
start_urls属性包含了Spider开始抓取的初始URL列表。
parse方法是用于处理网页响应的默认方法。在这里，使用了CSS选择器从网页中提取了标题和正文内容，并通过yield语句将提取到的数据作为字典传递给Pipeline进行处理。

Spider传参方式

在Scrapy中，Spider之间或Spider内部的不同方法之间可以通过多种方式进行参数传递和通信：

构造函数参数传递：

在Spider的构造函数中定义自定义参数，并在初始化Spider时传递这些参数。这些参数可以在Spider的各个方法中使用。


import scrapy

class MySpider(scrapy.Spider):
    name = 'example'

    def __init__(self, category=None, *args, **kwargs):
        super(MySpider, self).__init__(*args, **kwargs)
        self.category = category

    def start_requests(self):
        # 使用传递的参数构建初始请求
        # self.category 可在这里使用
        # ...

Request对象传递参数：

在发送请求时，可以使用meta参数将信息传递给下一个回调函数。这可以通过Request对象的meta属性进行。


import scrapy

class MySpider(scrapy.Spider):
    name = 'example'

    def start_requests(self):
        url = 'http://example.com'
        custom_data = {'key': 'value'}

        yield scrapy.Request(url, callback=self.parse, meta={'custom_data': custom_data})

    def parse(self, response):
        custom_data = response.meta.get('custom_data')
        # 使用传递的参数
        # ...

Spider属性传递：

Spider对象的属性可以在不同的方法之间共享数据。


import scrapy

class MySpider(scrapy.Spider):
    name = 'example'

    def start_requests(self):
        self.shared_data = 'some value'
        yield scrapy.Request('http://example.com', callback=self.parse)

    def parse(self, response):
        # 可以在这里使用 self.shared_data
        # ...