爬虫-通过几个例子来说明并发以及多线程

news2024/11/16 6:12:05

并发

什么是并发?并发,在操作系统中,是指一个时间段中有几个程序都处于已启动运行到运行完毕之间,且这几个程序都是在同一个处理机上运行,但任一个时刻点上只有一个程序在处理机上运行。

嗯,字认识,但是连在一起就有点够呛,哈哈,开个玩笑。

我们通过几个例子来较为深刻的理解一下:

第一个例子

我们用requests 成功请求一个网页,实际上requests做了三件事:

  1. 根据链接、参数登组合成一个请求
  2. 把这个请求发往要爬取的网站,等待网站响应
  3. 网站响应后,把结果包装成一个响应对象方便我们使用

 从上面的图中我们可以看出,步骤2花费的时间是最长的,取决于被爬虫网站的性能,这个时间可能达到几十到几百毫秒。相比之下,步骤1、3可能只需要1毫秒左右的时间,比上面这张图的对比还要夸张。

针对这个程序:步骤2也可以代表程序是空闲的,因为在等待网站的响应,因此代码真正运行的时间很短。

第二个例子

我们连续用requests请求三个网页A、B、C,执行效果如下

 这个相当于把三个请求串行起来执行,他们之间是互相依赖的,A执行完B执行然后C执行,时间上肯定是叠加的。

第三个例子

第一个例子中,顺序必须是1-2-3,因为他们之间是强依赖,但是在第二个例子中,步骤为什么必须是A1-A2-A3-B1-B2-B3-C1-C2-C3呢?B1和A3之间是没有依赖关系的。这个时候我们的并发出现了,步骤如下:

 这张图是什么意思呢?其实就是:在「爬取网页 A」这个过程进行到步骤 2 的时候,程序空闲下来了,这时我们让「爬取网页 B」的步骤 1 开始执行;同样的,「爬取网页 B」的步骤 1 执行完,程序又空闲下来,于是我们安排「爬取网页 C」开始执行。

可以看到,仅仅是利用爬虫等待的时间,爬虫的效率就提升了数倍,当爬取的数据更大的时候,爬虫的效率是不是更加的显著。

并发和多线程

并发的结果看起来确实很好,但是前面例子三的步骤看起来很复杂,我们实际编写代码的时候难道要考虑计算机将事情 A 做得怎么样了,有没有空闲?如果空闲就去做事情 B?想想都头大。

这个时候多线程就派上用场了,这个可是操作系统赋予的最强能力之一。

操作系统提供了两个东西:进程和线程,利用他们两个我们可以轻易的实现并发,而不用去考虑上面头大的问题。

我们来看两个代码

import time
import requests

# 假设我们要爬取 30 个网页
urls = ["https://wpblog.x0y1.com/?p=34"] * 30
session = requests.Session()

start = time.time()

results = []
for url in urls:
  r = session.get(url)
  results.append(r.text)

end = time.time()
print("花费", end-start, "秒")

然后我们把这个代码用多线程形式改写一下

import time
import requests
from concurrent import futures

# 假设我们要爬取 30 个网页
urls = ["https://wpblog.x0y1.com/?p=34"] * 30
executor = futures.ThreadPoolExecutor(max_workers=5)
session = requests.Session()

start = time.time()

fs = []
for url in urls:
  f = executor.submit(session.get, url)
  fs.append(f)

futures.wait(fs)
result = [f.result().text for f in fs]
end = time.time()
print("花费", end-start, "秒")

大家可以在自己电脑上运行下,下面的运行时间比上面的运行时间缩短好几倍。

代码详解

针对上面改写的代码,我们做个详细的分析解读:

初始化一个线程池

# 导入 concurrent.futures 这个包
from concurrent import futures

# 初始化一个线程池,最大的同时任务数是 5
executor = futures.ThreadPoolExecutor(max_workers=5)

concurrent是python自带的库,这库具有线程池和进程池、管理并行编程任务、处理非确定性的执行流程、进程、线程同步等功能。

线程 池限制了最多同时运行的线程数。比如说我们初始化一个最大任务数为5的线程池,这样使我们提交了100个任务到这个池子里,同时运行的也只有5个,因此代码中max_workers=5的作用就是这个。

提交任务到线程池

fs = []
for url in urls:
  # 提交任务到线程池
  f = executor.submit(session.get, url)
  fs.append(f)

executor是我们刚刚初始化的线程池,调用了executor的submit()方法往里面提交任务。第一个参数session.get是提交要运行的函数,第二个url是提交的函数运行时的参数。

executor.submit()方法会返回一个返回值,其是一个future对象,我们把他赋值给变量f。

future对象是什么

future 这个单词的原意是 未来。在并发编程的领域,future 对象这个东西通常保存着函数调用完成时的结果。

我们结合实例再试着理解一遍。

比如在上面我们告诉线程池,要调用 session.get 方法,参数为 url。如果线程池还没满,程序就启动一个线程开始执行它;如果线程池满了,就等待有任务完成被挪出线程池,再把这个任务放到那个线程上运行。

但是我们不知道 session.get(url) 在多久之后被完成,那我们要的结果保存在什么地方呢?答案就是 future 对象。如果某一个任务已经完成,那么通过这个任务被提交时返回给我们的 future 对象,就可以拿到这个任务的结果。

等待代码全部完成

# 等待这些任务全部完成
futures.wait(fs)

fs 是保存了上面所有任务的 future 对象的列表,futures.wait() 方法可以等待直到 fs 里面所有的 future 对象都有结果为止。

获取所有任务的结果

# 获取任务的结果
result = [f.result().text for f in fs]

fs是保存了上面所有任务的future对象的列表,我们遍历所有任务的future对象,调用future对象的result()方法,就能得到任务的结果。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1956412.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

vulntarget-b

实际部署之后centos7 的ip有所变动分别是 :192.168.127.130以及10.0.20.30 Centos7 老规矩还是先用fscan扫一下服务和端口,找漏洞打 直接爆出来一个SSH弱口令…,上来就不用打了,什么意思??? 直接xshell…

快递员送包裹与一致性哈希的关系

一致性哈希(Consistent Hashing)是一种用于分布式系统中数据分布和负载均衡的哈希技术。它通过减少数据迁移、支持动态扩展和高容错等特点,在分布式缓存、存储、负载均衡等系统中有广泛应用。以下是对一致性哈希的详细介绍: 一致…

跨境电商平台评论管理:如何避免评论被删及提高留评率

在跨境电商领域,评论对于产品的销售和品牌形象至关重要。然而,卖家常常面临评论被删除的问题,这不仅影响了产品的曝光和销售,还可能对店铺声誉造成损害。本文将探讨亚马逊、Ozon、速卖通、Lazada等跨境电商平台评论被删除的原因&a…

财务分析,奥威BI行计算助力财务解放报表工作

【财务分析,奥威BI行计算助力财务解放报表工作】 在企业的财务管理体系中,财务报表的编制与分析是至关重要的一环。然而,传统的手工编制报表方式不仅耗时耗力,还难以应对日益复杂多变的财务数据需求。奥威BI(Business…

2024最火的知识付费系统小程序+PC+H5三端数据互通支持采集资源开源版

内容目录 一、详细介绍二、效果展示1.部分代码2.效果图展示 三、学习资料下载 一、详细介绍 系统含带 裂变模式 可以助力好友来获取资源共享 分站功能 独立后台 会员功能 卡密功能 二级分销功能等 自行研究看 后期有更新新版会在持续发布 目前版本是3.5 是我花三天时间修复的 …

数据开发/数仓工程师上手指南(三)数仓构建流程

前言 此系列的上篇文章通过拆解电商业务数仓系统,通过数仓分层概念对整个业务进行拆解分层,那么本章节将沿着上一篇的数仓概念分层切割电商业务,去具体构建电商业务的数据仓库,我们将按照行业认可标准的流程去构建较为完整的数据…

【C++的剃刀】我不允许你还不会AVL树

​ 学习编程就得循环渐进,扎实基础,勿在浮沙筑高台 循环渐进Forward-CSDN博客 Hello,这里是kiki,今天继续更新C部分,我们继续来扩充我们的知识面,我希望能努力把抽象繁多的知识讲的生动又通俗易懂,今天要…

springboot电影院线上购票系统-计算机毕业设计源码68220

目录 摘要 1 绪论 1.1 选题背景与意义 1.2国内外研究现状 1.3论文结构与章节安排 2系统分析 2.1.1 技术可行性分析 2.1.2 经济可行性分析 2.1.3 法律可行性分析 2.2 系统流程分析 2.2.1 添加信息流程 2.2.2 修改信息流程 2.2.3 删除信息流程 2.3 系统功能分析 2.…

暑期审稿慢,第三轮审稿人拒绝复审,怎么办?

我是娜姐 迪娜学姐 ,一个SCI医学期刊编辑,探索用AI工具提效论文写作和发表。 暑期到了,国内的审稿人又慢了。近期不少学员问我:“娜姐,审稿一直没动静,可以催吗?真是着急啊 !” …

如何在 VitePress 中自定义logo,打造精美首页 #home-hero-image

💝💝💝欢迎莅临我的博客,很高兴能够在这里和您见面!希望您在这里可以感受到一份轻松愉快的氛围,不仅可以获得有趣的内容和知识,也可以畅所欲言、分享您的想法和见解。 推荐:「storm…

C语言 | Leetcode C语言题解之第282题给表达式添加运算符

题目: 题解: #define MAX_COUNT 10000 // 解的个数足够大 #define NUM_COUNT 100 // 操作数的个数足够大 long long num[NUM_COUNT] {0};long long calc(char *a) { // 计算表达式a的值// 将数字和符号,入栈memset(num, 0, sizeof(num));in…

差分法求解 Burgers 方程(附完整MATLAB 及 Python代码)

Burgers 方程的数值解及误差分析 引言 Burgers 方程是一个非线性偏微分方程,在流体力学、非线性声学和交通流理论中有广泛应用。本文将通过数值方法求解带粘性的 Burgers 方程,并分析其误差。 方程模型 Burgers 方程的形式为: u t u u …

在react中如何计算本地存储体积

1.定义useLocalStorageSize钩子函数 // 计算localStorage大小 function useLocalStorageSize() {const [size, setSize] useState(0);useEffect(() > {const calculateSize () > {let totalSize 0;for (let key in localStorage) {//过滤掉继承自原型链的属性if (loc…

Profinet转EtherNet/IP协议转化网关(功能与配置)

怎么样把Profinet和EtherNet/IP两个协议连接起来?有很多朋友想要了解这个问题,那么作者在这里统一说明一下。其实有一个不错的设备产品可以很轻易地解决这个问题,名为JM-PN-EIP。接下来作者就从该设备的功能及配置详细说明一下。 一,设备主…

力扣高频SQL 50题(基础版)第二十二题

文章目录 力扣高频SQL 50题(基础版)第二十二题1084 销售分析题目说明思路分析实现过程准备数据实现方式结果截图 力扣高频SQL 50题(基础版)第二十二题 1084 销售分析 题目说明 表: Product --------------------- …

Scraperr能从网页中抓取数据

什么是 Scraperr ? Scraperr 是一个自托管的 Web 应用程序,允许用户通过 XPath 指定元素从网页中抓取数据。用户可以提交要抓取的 URL 和相应元素,结果将显示在表格中。用户可以下载作业结果的 Excel 表,以及重新运行该作业的选项…

在这个只有病人去的场所,你看到了哪些意料之外的举动?--医者仁心:医院里的温情奇迹

在这个只有病人去的场所,你看到了哪些意料之外的举动? --医者仁心:医院里的温情奇迹 在繁忙与喧嚣交织的医院里,每一天都上演着生与死的较量,但在这片看似冷漠的土地上,却也悄然绽放着无数温暖人心的花朵。今天&…

prompt输入框模拟禁用弹窗

this.$prompt(确认取消申报申请吗?, 提示, {confirmButtonText: 确定,cancelButtonText: 取消,

新款 GPT-4o mini、Llama 3.1、Mistral NeMo 12B 和其他 GenAI 趋势指南

作者使用 GPT-4o 创建的图像,用于表示不同的模型 欢迎来到雲闪世界。自 2022 年 11 月推出 ChatGPT 以来,几乎每周都会出现新的模型、新颖的提示方法、创新的代理框架或其他令人兴奋的 GenAI 突破。2024 年 7 月也不例外:仅在本月&#xff0c…

UDP connect 内核源码分析

1 从诡异开始 最近遇到一个线上问题,client 发了一个 udp 请求,服务器回了一个响应,但诡异的是,client 的 log 却看不到对应的处理日志。抓包发现内核发出了一个指示 udp 目的端口不可达的 icmp 报文,类似这样的&#…