常用python爬虫框架介绍

news2025/4/23 7:05:52

文章目录

前言
- 1. Scrapy
- 2. BeautifulSoup 与 Requests 组合
- 3. Selenium
- 4. PySpider

前言

Python 有许多优秀的爬虫框架，每个框架都有其独特的特点和适用场景。以下为你详细介绍几个常用的 Python 爬虫框架：

Python 3.13.2 安装教程（附安装包）:https://blog.csdn.net/2501_91193507/article/details/146770362

Python 3.13.2下载链接：https://pan.quark.cn/s/1bddf43c0c2f

1. Scrapy

简介：Scrapy 是一个为了爬取网站数据、提取结构性数据而编写的应用框架。它可以应用在数据挖掘、信息处理或存储历史数据等一系列的程序中。其功能强大，提供了数据抓取、数据处理、数据存储等一系列完整的解决方案。
特点
高效性：基于异步网络库 Twisted 实现，能够高效地处理大量的并发请求，大大提高了爬取效率。
组件化设计：具有高度模块化的架构，各个组件（如调度器、下载器、爬虫、管道等）之间相互独立又协同工作，方便用户根据需求进行定制和扩展。
数据处理方便：提供了强大的选择器（如 XPath、CSS 选择器）用于提取网页中的数据，还支持多种数据格式（如 JSON、CSV、XML 等）的存储。
中间件支持：支持多种中间件，如下载中间件和爬虫中间件，可以方便地对请求和响应进行处理，例如设置代理、处理请求头、处理异常等。
适用场景：适用于大规模、高效率的爬虫项目，如搜索引擎数据采集、电商网站商品信息抓取等。
示例代码

import scrapy


class QuotesSpider(scrapy.Spider):
    name = "quotes"
    start_urls = [
        'https://quotes.toscrape.com',
    ]

    def parse(self, response):
        for quote in response.css('div.quote'):
            yield {
                'text': quote.css('span.text::text').get(),
                'author': quote.css('small.author::text').get(),
                'tags': quote.css('div.tags a.tag::text').getall(),
            }

        next_page = response.css('li.next a::attr(href)').get()
        if next_page is not None:
            yield response.follow(next_page, self.parse)
你可以使用以下命令运行这个爬虫：
bash
scrapy runspider quotes_spider.py -o quotes.json

2. BeautifulSoup 与 Requests 组合

简介：严格来说，BeautifulSoup 是一个用于解析 HTML 和 XML 文档的库，而 Requests 是一个用于发送 HTTP 请求的库。它们通常一起使用，作为一个轻量级的爬虫解决方案。
特点
简单易用：API 设计简洁明了，容易上手，对于初学者来说非常友好。
灵活性高：可以根据具体需求自由组合和定制爬取逻辑，不受框架的限制。
广泛的解析支持：BeautifulSoup 支持多种解析器（如 Python 内置的 html.parser、lxml 等），可以根据不同的需求选择合适的解析器。
适用场景：适用于小规模、简单的爬虫任务，如抓取单个网页的数据、简单的数据采集等。
示例代码

import requests
from bs4 import BeautifulSoup

url = 'https://quotes.toscrape.com'
response = requests.get(url)
soup = BeautifulSoup(response.text, 'html.parser')

quotes = soup.find_all('div', class_='quote')
for quote in quotes:
    text = quote.find('span', class_='text').text
    author = quote.find('small', class_='author').text
    print(f'Quote: {text}, Author: {author}')

3. Selenium

简介：Selenium 是一个用于自动化浏览器操作的工具，它可以模拟用户在浏览器中的各种行为，如点击、输入、滚动等。在爬虫领域，Selenium 常用于处理动态网页，即需要通过 JavaScript 动态加载内容的网页。
特点
处理动态内容：能够模拟浏览器的渲染过程，获取动态加载的网页内容，解决了许多传统爬虫无法处理的问题。
跨浏览器支持：支持多种主流浏览器（如 Chrome、Firefox、Safari 等），可以根据需求选择合适的浏览器进行自动化操作。
丰富的操作方法：提供了丰富的 API 用于模拟用户的各种操作，如点击按钮、填写表单、切换页面等。
适用场景：适用于需要处理动态网页的爬虫任务，如爬取电商网站的商品详情页（需要点击 “查看更多” 按钮才能显示完整信息）、社交媒体网站的动态内容等。
示例代码

from selenium import webdriver
from selenium.webdriver.common.by import By

driver = webdriver.Chrome()
driver.get('https://quotes.toscrape.com')

quotes = driver.find_elements(By.CSS_SELECTOR, 'div.quote')
for quote in quotes:
    text = quote.find_element(By.CSS_SELECTOR, 'span.text').text
    author = quote.find_element(By.CSS_SELECTOR, 'small.author').text
    print(f'Quote: {text}, Author: {author}')

driver.quit()

4. PySpider

简介：PySpider 是一个国产的、轻量级的爬虫框架，它提供了一个可视化的界面，方便用户进行爬虫的创建、调试和管理。
特点
可视化界面：具有直观的 Web 界面，用户可以通过浏览器访问和操作，无需编写复杂的命令行脚本。
分布式支持：支持分布式爬取，可以利用多台机器的资源提高爬取效率。
自动重试和断点续爬：具备自动重试机制，当请求失败时会自动重试；同时支持断点续爬，在爬取过程中中断后可以继续从上次中断的位置开始爬取。
适用场景：适用于需要快速开发和部署爬虫的场景，尤其是对于非专业的开发者来说，其可视化界面降低了开发门槛。
示例代码（通过 Web 界面创建爬虫）
启动 PySpider 服务：在命令行中运行 pyspider all。
打开浏览器，访问 http://localhost:5000，进入 PySpider 的 Web 界面。
在 Web 界面中创建一个新的爬虫，编写爬取逻辑：

from pyspider.libs.base_handler import *


class Handler(BaseHandler):
    crawl_config = {
    }

    @every(minutes=24 * 60)
    def on_start(self):
        self.crawl('https://quotes.toscrape.com', callback=self.index_page)

    @config(age=10 * 24 * 60 * 60)
    def index_page(self, response):
        for each in response.doc('div.quote').items():
            self.crawl(each.attr.href, callback=self.detail_page)

    @config(priority=2)
    def detail_page(self, response):
        return {
            "url": response.url,
            "title": response.doc('title').text(),
        }