经典问题:Python实现生产者消费者模式的多线程爬虫

news2024/12/23 0:32:14

Python实现生产者消费者模式的多线程爬虫

  • 1. 多组件的Pipeline技术架构
  • 2. 生产者消费者爬虫的架构
  • 3.多线程数据通信的queue.Queue
  • 4. 代码编写实现生产者消费者爬虫

1. 多组件的Pipeline技术架构

  • 复杂的事情一般都不会一下子做完,而是会分很多中间步骤一步步完成。
    在这里插入图片描述

2. 生产者消费者爬虫的架构

在这里插入图片描述

  • 根据需求,按照上面设计的架构,程序可以由两拨人开发,生产者组和消费者组,这样的架构设计,可以大大提高效率。

3.多线程数据通信的queue.Queue

  • queue.Queue可以用于多线程之间的、线程安全的数据通信
    1.导入类库
    import queue
    
    2.创建Queue
    q = queue.Queue()
    
    3. 添加元素
    q.put(item)
    
    4. 获取元素
    item = q.get()
    
    5. 查询状态
    # 查看元素的多少(个数)
    q.size()
    # 判断是否为空
    q.empty()
    # 判断是否已满
    q.full()
    

4. 代码编写实现生产者消费者爬虫

  • 还是抓取博客信息,包括两部分内容:网址链接和标题内容。

  • 下面第一步,先建立一个包含生产者和消费者的模型,对某博客信息进行分析。
    在这里插入图片描述

    # 这是blogSpider.py
    import requests
    from bs4 import BeautifulSoup
    
    urls = [
        f"https://www.cnblogs.com/#p{page}"
        for page in range(1,51)
    ]
    
    # 生产者
    def draw(url):
        r = requests.get(url)
        return r.text
    
    # 消费者
    def parse(html):
        # class="post-item-title"
        # html.parser类似lxml的一个解析库的功能模块
        soup = BeautifulSoup(html, "html.parser")
        links = soup.find_all("a", class_="post-item-title")
        # 用推导式收集博客文章的链接href和标题内容,并返回
        return [(link["href"],link.get_text()) for link in links ]
    
    if __name__ == "__main__":
    	# for循环遍历解析(parse)所有爬取(draw)的网页信息,得到文章链接与标题
        for result in parse(draw(urls[2])):
            print(result)
    
    • 运行结果如下。
      在这里插入图片描述
  • 接着第二步,再建立队列,来进一步控制线程通信

    import queue
    import blogSpider
    import time
    import random
    import threading
    
    
    ''' 
        1、生产者使用队列控制线程通信
    # 定义生产者线程用函数的同时,设置两个参数并表明都是Queue队列类型
    # url_queue里面放了网址,html_queue里面放了网页源代码
    # 这里get相当于生产,然后用html_queue.put(html)为后面消费做了准备
    '''
    
    
    def do_draw(url_queue: queue.Queue, html_queue: queue.Queue):
        while True:
            # 从总网页源代码中爬取并得到网址(从队列中取出一个元素)
            url = url_queue.get()
            # 调用前面blogSpider模块里面的draw方法得到网页内容(源代码)
            html = blogSpider.draw(url)
            # 把源代码放入html_queue队列,以备后面的消费者使用
            html_queue.put(html)
            # 打印显示线程名字、网址、和网址长度信息,随着后面的消费显示越来越少
            print(threading.current_thread().name, f"{url}", "url_queue.size=", url_queue.qsize())
    
            # 在1秒到2秒时间内随机休眠
            time.sleep(random.randint(1, 2))
    
    
    ''' 
        2、消费者使用队列控制线程通信
        # 定义消费者线程用函数的同时,设置两个参数并表明都是Queue队列类型
        # 参数html_queue里面放了网址源代码(这是由生产者代码里面放入的),形成了放有网页源代码的列表
        # 参数fout是存放文本的文件,放了解析出来的结果,并以字符串的形式写入
        # 下面parse一组等于消费一个
        
    '''
    
    
    def do_parse(html_queue: queue.Queue, fout):
        while True:
            # 从所有解析出来的网页源代码中获取一份(从队列中取出一个元素)
            html = html_queue.get()
            # 调用前面blogSpider模块里面的parse方法得到网页地址和网页内容(标题信息)
            results = blogSpider.parse(html)
            # 遍历results列表并写入fout磁盘文本文件
            for result in results:
                fout.write(str(result) + "\n")
            # 打印输出包含“网页地址和网页内容”的结果集的个数和长度,显示越来越少
            print(threading.current_thread().name, f"results.size=", len(results), "html_queue.size=", html_queue.qsize())
    
            # 在1秒到2秒时间内随机休眠
            time.sleep(random.randint(1, 2))
    
    
    if __name__ == "__main__":
        url_queue = queue.Queue()
        html_queue = queue.Queue()
    
        # 这一步很重要,是整个程序的入口,必须遍历网页地址(urls列表),并逐个把url地址放入url_queue队列
        for url in blogSpider.urls:
            url_queue.put(url)
    
        # 建立三个线程作为生产者开始生产
        for i in range(3):
            t = threading.Thread(target=do_draw, args=(url_queue, html_queue),
                                 name=f"draw{i}")
            t.start()
    
        # 建立三个线程作为消费者开始消费
        fouts = open("02.data.txt", "w")
        for i in range(2):
            t = threading.Thread(target=do_parse, args=(html_queue, fouts),
                                 name=f"parse{i}")
            t.start()
    
    
    • 运行结果
      在这里插入图片描述
    • 上面代码主程序中,有3个生产者线程和2个消费者线程,这两个数字可以分别改动一下看看,会出现什么效果,结合程序代码中的注释,慢慢理解。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/164565.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

二十七、Kubernetes中DaemonSet(DS)控制器详解

1、概述 在kubernetes中,有很多类型的pod控制器,每种都有自己的适合的场景,常见的有下面这些: ReplicationController:比较原始的pod控制器,已经被废弃,由ReplicaSet替代 ReplicaSet&#xff…

LeetCode题目笔记——2293. 极大极小游戏

文章目录题目描述题目难度——简单方法一:模拟代码/Python方法二:优化本地修改代码/python代码/C总结题目描述 给你一个下标从 0 开始的整数数组 nums ,其长度是 2 的幂。 对 nums 执行下述算法: 设 n 等于 nums 的长度&#x…

理论——加密法

前言写C写多了,给大伙换换口味,这篇文章将会给大家带来几种加密法,以后写情书有素材了吧?还不快谢谢我~正文凯撒加密法简介在密码学中,恺撒密码是一种最简单且最广为人知的加密技术。它是一种替换加密的技术&#xff0…

因果推断6--多任务学习(个人笔记)

目录 1多任务学习 1.1问题描述 1.2数据集 1.3网络结构 1.4结果 2因果推断使用多任务方式 2.1DRNet 2.2Dragonet 2.3Deep counterfactual networks with propensity-dropout 2.4VCNet 3思考 1多任务学习 keras-mmoe/census_income_demo.py at master drawbridge/ke…

一种穷人式的内存泄露检测方式

对于检测程序代码中的资源泄露问题,市面上已经有很多工具了,但是今天我再来介绍一种新的方式,这种方式不需要安装任何工具或者特定的编译器开关,也不需要第三方库。 那就是:一直保持程序运行,直到泄露的原因…

【牛客网】HJ99 自守数、OR86 返回小于 N 的质数个数

作者:一个喜欢猫咪的的程序员 专栏:《Leetcode》 喜欢的话:世间因为少年的挺身而出,而更加瑰丽。 ——《人民日报》 目录 HJ99 自守数 OR86 返回小于 N 的质数个数 HJ99 自守数 自守数_牛客…

Linux系统之安装Linux管理工具inpanel

Linux系统之安装Linux管理工具inpanel一、inpanel介绍1.inpanel简介2.inpanel特点二、检查本地系统环境1.检查系统版本2.检查系统内核版本三、下载inpanel软件包1.创建下载目录2.下载inpanel软件3.查看源码inpanel文件四、部署inpanel应用1.一键安装inpanel2.查看服务端口五、关…

【双U-Net残差网络:超分】

Dual U-Net residual networks for cardiac magnetic resonance images super-resolution (心脏磁共振图像超分辨率的双U-Net残差网络) 目前,心脏磁共振(CMR)成像能够提供心脏全方位的结构和功能信息,已成…

难道你也不能放烟花嘛?那就来看看这个吧!

又到了一年一度的春节时期啦!昨天呢是北方的小年,今天是南方的小年,看到大家可以愉快的放烟花,过大年很是羡慕呀!辞旧岁,贺新春,今年我呀要放烟花,过春节!🧨。…

农产品商城简单demo-Android

项目概述 随着科学技术的不断提高和社会经济的不断发展,一些农产品的销售逐渐的落后于社会信息化的潮流之中,尤其是一些年龄较大的中老年人来说是极为不便的,国家大力倡导并十分重视三农问题,倡导推动农村农业的发展,为…

第二章 搜索求解

人工智能中的搜索&#xff1a; 搜索算法的形式化描述&#xff1a;<状态、动作、状态转移、路径、测试目标> 状态&#xff1a;从原问题转化出的问题描述。 动作&#xff1a;从当前时刻所处状态转移到下一时刻所处状态。 状态转移&#xff1a;对某一时刻对应状态进行某一…

泛型的学习

这里写目录标题一、泛型的使用自定义泛型类泛型方法说明泛型在继承方面的体现通配符的使用有限制条件的通配符的的使用每日一考一、泛型的使用 1、jdk5.0新增特性 2、在集合中使用泛型 ①集合接口或集合类在jdk5.0时都修改为带泛型的结构 ②实例化集合时&#xff0c;可以指明具…

是Spring啊!

一.概念spring概念一个包含了众多工具方法的 IoC 容器okk~~分析一下这句话意思,众多方法,IoC 是形容词,容器是名词 -> 众多方法:比如一个类里有许多方法, 容器:存储的东西 重点就是IoC是什么?Ioc2.1解释IoC -> Inversion of Control 控制反转 -> 对象的生命周期 ->…

Git版本控制工具详解

1、版本控制 1.1、认识版本控制&#xff08;版本控制&#xff09; 什么是版本控制&#xff1f; 版本控制的英文是Version control&#xff1b;是维护工程蓝图的标准作法&#xff0c;能追踪工程蓝图从诞生一直到定案的过程&#xff1b;版本控制也是一种软件工程技巧&#xff…

红米 12C earth 秒解锁 跳过168小时 红米note12 note12pro note12pro+系列机型解锁bl root教程步骤Fastboot

最近上手体验了Redmi 12C/红米12C&#xff0c;这是红米新推出的百元机&#xff0c;起售价699元&#xff0c;464G版本&#xff0c;具有不错的性能&#xff0c;具有5000mAh大电池&#xff0c;具有双频wifi&#xff0c;支持双卡双待&#xff0c;支持SD卡扩展等。 如果你近期想要给…

UTF-8和Unicode

文章目录Unicode与网络传输Unicode网络传输UTF&#xff1a;Unicode Transformation Format UTF-8是在网络上传输Unicode的一个转换标准&#xff0c;发送时将字符串Unicode转为UTF-8&#xff0c;接收时将字节转为Unicode&#xff0c;就完成来字符串的传输 Unicode与网络传输 U…

移动端 - 搜索组件(search-list篇)

移动端 - 搜索组件(search-input篇) 移动端 - 搜索组件(suggest篇) 这里我们需要去封装搜索历史组件 这一个组件还是很简单的, 但是逻辑部分需要根据实际的需求来进行书写; 所以这里我不太好去写实际的代码, 不过可以提供我的思路(主要的就是去实现增, 删, 改, 查) 第一步: 首…

【STL】string的常见接口使用

目录 1、string类的基础概念 2、string类的常见接口说明及应用 2.1、string类的成员函数 constructor&#xff08;构造函数&#xff09; destructor&#xff08;析构函数&#xff09; operator&#xff08;赋值&#xff09; string类对象的容量操作 迭代器 string类…

【vue2】组件基础与组件传值(父子组件传值)

&#x1f973;博 主&#xff1a;初映CY的前说(前端领域) &#x1f31e;个人信条&#xff1a;想要变成得到&#xff0c;中间还有做到&#xff01; &#x1f918;本文核心&#xff1a;组件基础概念与全局|局部组件的写法、组件之间传值&#xff08;父传子、子传父&#xff…

rcfile和orcfile

一、数据存储要考虑哪些方面 数据加载时间 Facebook数仓每天存储的数据量超过20TB&#xff0c;数据加载既有磁盘I/O又有网络传输&#xff0c;时间占用大 快速的数据查询 低的空间占用 数据压缩/数据编码 适合多种查询模式 如果所有人都查相同的字段&#xff0c;那么就可以针…