《Python实战进阶》No20: 网络爬虫开发:Scrapy框架详解

news2025/3/11 15:23:17

No20: 网络爬虫开发:Scrapy框架详解

摘要

本文深入解析Scrapy核心架构,通过中间件链式处理布隆过滤器增量爬取Splash动态渲染分布式指纹策略四大核心技术,结合政府数据爬取与动态API逆向工程实战案例,构建企业级爬虫系统。提供完整代码与运行结果,包含法律合规设计与反爬对抗方案。


Scrapy是适用于Python的一个快速、高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据。Scrapy用途广泛,可以用于数据挖掘、监测和自动化测试。
Scrapy吸引人的地方在于它是一个框架,任何人都可以根据需求方便的修改。它也提供了多种类型爬虫的基类,如BaseSpider、sitemap爬虫等,最新版本又提供了web2.0爬虫的支持。

在这里插入图片描述

运行环境与依赖说明

# 环境要求
Python 3.8+
Redis 6.0+ (分布式场景)

# 依赖安装
pip install scrapy==2.8.0 scrapy-splash==0.9.0 scrapy-redis==0.7.2
pip install redis==4.5.5 requests==2.31.0 beautifulsoup4==4.12.2

核心概念与实战代码

1. 中间件链式处理机制

核心逻辑:通过process_requestprocess_response实现请求/响应预处理

# 中间件实现示例:随机User-Agent
class RandomUserAgentMiddleware:
    def __init__(self):
        self.user_agents = [
            "Mozilla/5.0 (Windows NT 10.0...)",
            "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15...)"
        ]
    
    def process_request(self, request, spider):
        request.headers['User-Agent'] = random.choice(self.user_agents)
        spider.logger.info(f"Using User-Agent: {request.headers['User-Agent']}")

# settings.py配置
DOWNLOADER_MIDDLEWARES = {
    'myproject.middlewares.RandomUserAgentMiddleware': 543,
}

输出日志

[scrapy.core.engine] INFO: Using User-Agent: Mozilla/5.0 (Windows NT 10.0...

2. 增量爬取与布隆过滤器

实现方案:基于Scrapy-Redis的BloomFilter去重

# 布隆过滤器配置(settings.py)
SCHEDULER = "scrapy_redis.scheduler.Scheduler"
DUPEFILTER_CLASS = "scrapy_redis.dupefilter.BloomFilter"
REDIS_URL = 'redis://localhost:6379'

# 启动爬虫(保留历史指纹)
scrapy crawl gov_spider -s SCHEDULER_PERSIST=True

运行效果

[scrapy_redis.scheduler] INFO: Resuming crawl (5678 requests scheduled)

3. Splash渲染与自动代理池

动态页面处理:集成Splash渲染JavaScript

# 使用SplashRequest爬取动态页面
import scrapy
from scrapy_splash import SplashRequest

class DynamicSpider(scrapy.Spider):
    name = 'dynamic_spider'
    
    def start_requests(self):
        yield SplashRequest(
            url="https://example.com/ajax-page",
            callback=self.parse,
            args={'wait': 2}
        )

    def parse(self, response):
        yield {
            'content': response.xpath('//div[@class="dynamic-content"]/text()').get()
        }

输出结果

{'content': '这是动态加载的内容'}

4. 分布式爬虫指纹策略

分布式架构:通过Redis共享指纹和队列

# 分布式配置(settings.py)
SCHEDULER = "scrapy_redis.scheduler.Scheduler"
SCHEDULER_QUEUE_CLASS = 'scrapy_redis.queue.FifoQueue'
REDIS_HOST = '192.168.1.100'

运行命令

# 在多台机器上启动
scrapy runspider myspider.py -a slave_id=1
scrapy runspider myspider.py -a slave_id=2

在这里插入图片描述

实战案例

案例1:政府公开数据结构化爬取

目标:爬取国家统计局季度GDP数据

# items.py定义结构
class GovDataItem(scrapy.Item):
    quarter = scrapy.Field()
    gdp = scrapy.Field()
    growth_rate = scrapy.Field()

# spiders/gov_spider.py
class GovSpider(scrapy.Spider):
    name = 'gov_spider'
    start_urls = ['http://www.stats.gov.cn/tjsj/zxfb/']

    def parse(self, response):
        for row in response.css('table.data-table tr'):
            yield GovDataItem({
                'quarter': row.xpath('td[1]/text()').get(),
                'gdp': row.xpath('td[2]/text()').get(),
                'growth_rate': row.xpath('td[3]/text()').get()
            })

输出示例

[
  {"quarter": "2023-Q1", "gdp": "284997", "growth_rate": "4.5%"},
  {"quarter": "2023-Q2", "gdp": "308038", "growth_rate": "6.3%"}
]

案例2:动态API逆向工程

目标:破解某电商商品列表加密参数

# 逆向分析加密参数
import requests
from bs4 import BeautifulSoup

def get_token():
    response = requests.get('https://api.example.com/init')
    soup = BeautifulSoup(response.text, 'html.parser')
    return soup.find('script')['data-token']

# 在Scrapy中使用
class ApiSpider(scrapy.Spider):
    def parse(self, response):
        token = get_token()
        yield scrapy.FormRequest(
            url="https://api.example.com/data",
            formdata={'token': token, 'page': '1'},
            callback=self.parse_data
        )

响应示例

{
  "data": [
    {"id": 1001, "name": "智能手机", "price": 2999},
    {"id": 1002, "name": "笔记本电脑", "price": 8999}
  ]
}

扩展思考

1. 法律合规设计

# robots.txt遵守中间件
class RobotsTxtMiddleware:
    def process_request(self, request, spider):
        if not spider.allowed_domains:
            return
        # 校验robots协议
        rp = RobotFileParser()
        rp.set_url(f"http://{spider.allowed_domains[0]}/robots.txt")
        rp.read()
        if not rp.can_fetch("*", request.url):
            spider.logger.warning(f"Blocked by robots.txt: {request.url}")
            return scrapy.Request(url=request.url, dont_filter=True, callback=lambda _: None)

2. 反爬虫对抗测试框架

测试方案:模拟IP封禁、验证码场景

# 使用Selenium测试反爬
from selenium import webdriver
from selenium.webdriver.common.by import By

driver = webdriver.Chrome()
driver.get("https://example.com/protected-page")

# 检测是否出现验证码
if "验证码" in driver.page_source:
    print("触发验证码防护")
    # 调用第三方验证码识别API
    captcha = solve_captcha(driver.find_element(By.ID, "captcha-img"))
    driver.find_element(By.ID, "captcha-input").send_keys(captcha)

总结

本文构建了完整的Scrapy技术体系:

  1. 中间件系统:实现请求指纹管理、动态渲染、代理切换
  2. 增量机制:通过Redis+BloomFilter实现百亿级URL去重
  3. 合规设计:内置robots协议校验与速率限制
  4. 分布式扩展:支持跨服务器协同爬取

📌 实战建议:

  • 优先使用scrapy shell调试Selector
  • 动态页面优先尝试逆向API而非直接渲染
  • 企业级项目建议结合Scrapy-Redis+Gerapy分布式部署

相关阅读:No19-时间序列预测 | No21-微服务架构设计

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2313278.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Linux:多线程(单例模式,其他常见的锁,读者写者问题)

目录 单例模式 什么是设计模式 单例模式介绍 饿汉实现方式和懒汉实现方式 其他常见的各种锁 自旋锁 读者写者问题 逻辑过程 接口介绍 单例模式 什么是设计模式 设计模式就是一些大佬在编写代码的过程中,针对一些经典常见场景,给定对应解决方案&…

【氮化镓】高输入功率应力诱导的GaN 在下的退化LNA退化

2019年,中国工程物理研究院电子工程研究所的Tong等人基于实验与第一性原理计算方法,研究了Ka波段GaN低噪声放大器(LNA)在高输入功率应力下的退化机制。实验结果表明,在27 GHz下施加1 W连续波(CW)输入功率应力后,LNA的增益下降约1 dB,噪声系数(NF)增加约0.7 dB。进一…

Javaweb后端文件上传@value注解

文件本地存储磁盘 阿里云oss准备工作 阿里云oss入门程序 要重启一下idea,上面有cmd 阿里云oss案例集成 优化 用spring中的value注解

git规范提交之commitizen conventional-changelog-cli 安装

一、引言 使用规范的提交信息可以让项目更加模块化、易于维护和理解,同时也便于自动化工具(如发布工具或 Changelog 生成器)解析和处理提交记录。 通过编写符合规范的提交消息,可以让团队和协作者更好地理解项目的变更历史和版本…

Java/Kotlin逆向基础与Smali语法精解

1. 法律警示与道德边界 1.1 司法判例深度剖析 案例一:2021年某游戏外挂团伙刑事案 犯罪手法:逆向《王者荣耀》通信协议,修改战斗数据包 技术细节:Hook libil2cpp.so的SendPacket函数 量刑依据:非法经营罪&#xff…

非软件开发项目快速上手:14款管理软件精选

文章介绍了以下14款项目管理系统:1.Worktile;2.Teambition;3.Microsoft Project;4.Forbes;5.WorkOtter;6.Trello;7.Smartsheet;8.Taiga;9.ClickUp;10.Monday.…

夸父工具箱(安卓版) 手机超强工具箱

如今,人们的互联网活动日益频繁,导致手机内存即便频繁清理,也会莫名其妙地迅速填满,许多无用的垃圾信息悄然占据空间。那么,如何有效应对这一难题呢?答案就是今天新推出的这款工具软件,它能从根…

混元图生视频-腾讯混元开源的图生视频模型

混元图生视频是什么 混元图生视频是腾讯混元推出的开源图生视频模型,用户可以通过上传一张图片进行简短描述,让图片动起来生成5秒的短视频。模型支持对口型、动作驱动和背景音效自动生成等功能。模型适用于写实、动漫和CGI等多种角色和场景,…

Debian系统grub新增启动项

参考链接 给grub添加自定义启动项_linux grub定制 启动项名称自定义-CSDN博客 www.cnblogs.com 1. boot里面的grub.cfg 使用vim打开boot里面的grub.cfg sudo vim /boot/grub/grub.cfg 这时候会看到文件最上方的提示 2. 真正配置grub的文件 从刚才看到的文件提示中&#x…

VSCode快捷键整理

VSCode快捷键整理 文章目录 VSCode快捷键整理1-VSCode 常用快捷键1-界面操作2-单词移动3-删除操作4-编程相关5-多光标操作6-文件、符号、函数跳转7-鼠标操作8-自动补全操作9-代码折叠操作 1-VSCode 常用快捷键 1-界面操作 文件资源管理器:Ctrl Shift E 跨文件搜…

刘火良 FreeRTOS内核实现与应用之1——列表学习

重要数据 节点的命名都以_ITEM后缀进行,链表取消了后缀,直接LIST 普通的节点数据类型 /* 节点结构体定义 */ struct xLIST_ITEM { TickType_t xItemValue; /* 辅助值,用于帮助节点做顺序排列 */ struct xLIST_I…

本地部署Navidrome个人云音乐平台随时随地畅听本地音乐文件

文章目录 前言1. 安装Docker2. 创建并启动Navidrome容器3. 公网远程访问本地Navidrome3.1 内网穿透工具安装3.2 创建远程连接公网地址3.3 使用固定公网地址远程访问 前言 今天我要给大家安利一个超酷的私有化音乐神器——Navidrome!它不仅让你随时随地畅享本地音乐…

数据集构建与训练前准备

训练数据集目录结构与格式 作者笨蛋学法,先将其公式化,后面逐步自己进行修改,读者觉得看不懂可以理解成,由结果去推过程,下面的这个yaml文件就是结果,我们去推需要的文件夹(名字可以不固定,但是…

jenkins+ant+jmeter生成的测试报告空白

Jenkins能正常构建成功,但是打开Jenkins上的测试报告,则显示空白 在网上找了很多文章,结果跟别人对比测试报告的配置,发现自己跟别人写的不一样 所以跟着别人改,改成一样的再试试 结果,好家伙&#xff0…

利用阿里云Atlas地区选择器与Plotly.js实现数据可视化与交互

在数据科学与可视化领域,交互式图表和地图应用越来越成为数据分析和展示的重要手段。本文将介绍如何结合阿里云Atlas地区选择器与Plotly.js,创建动态交互式的数据可视化应用。 一、阿里云Atlas地区选择器简介 阿里云Atlas是阿里云的一款数据可视化产品…

linux安装java8 sdk,使用 tar.gz安装包手动安装

1. 下载 Java 8 SDK 首先,需要从 Oracle 的官方网站或 OpenJDK 的网站下载 Java 8 的 .tar.gz 文件。并上传到服务器 2. 解压 JDK 下载完成后,使用 tar 命令解压文件。打开服务器终端,然后使用以下命令: tar -xvzf jdk-8uXXX-…

6.聊天室环境安装 - Ubuntu22.04 - elasticsearch(es)的安装和使用

目录 介绍安装安装kibana安装ES客户端使用 介绍 Elasticsearch, 简称 ES,它是个开源分布式搜索引擎,它的特点有:分布式,零配置,自动发现,索引自动分片,索引副本机制,res…

【python爬虫】酷狗音乐爬取练习

注意:本次爬取的音乐仅有1分钟试听,仅作学习爬虫的原理,完整音乐需要自行下载客户端。 一、 初步分析 登陆酷狗音乐后随机选取一首歌,在请求里发现一段mp3文件,复制网址,确实是我们需要的url。 复制音频的…

计算机视觉cv2入门之图像空域滤波(待补充)

空域滤波 空域滤波是指利用像素及像素领域组成的空间进行图像增强的方法。这里之所以用滤波这个词,是因为借助了频域里的概念。事实上空域滤波技术的效果与频域滤波技术的效果可以是等价的,而且有些原理和方法也常借助频域概念来解释。 原理和分类 空域滤波是在图…

游戏引擎学习第149天

今日回顾与计划 在今天的直播中,我们将继续进行游戏的开发工作,目标是完成资产文件(pack file)的测试版本。目前,游戏的资源(如位图和声音文件)是直接从磁盘加载的,而我们正在将其转…