爬虫日常练习-协程方式爬取图片

news2025/1/19 8:07:51

文章目录

  • 前言
  • 代码设计

前言

hello朋友们,欢迎回来。这里是无聊的网友。今天给大家分享另一种处理多任务的方法–协程
在这里插入图片描述

那么在开始之前我们首先要了解什么是协程。协程是在一个线程内:多个任务出现阻塞时,由envet_loop轮转查看阻塞状态,收到回复的任务优先执行
简单来说,他会自动检测程序的运行状态。想必看到这的同学一阵头大​。
在这里插入图片描述
机智的程序猿决定给小伙子们解释一二​。假设线程内有四个不同的请求任务,分别为A,B,C,D。内部会有一个管理员帮我们查看他们的运行状态
普通的程序一般都是运行完A后才接着运行B,而协程则可以帮助我们在宏观上实现多任务同时处理。
在这里插入图片描述

比方说 A首先发送了请求,但是还没有得到回应,envet_loop(我们称他为管理员)发现服务器还没有返回对A的回应,这个时候它就会把A先放在一边。​将B放上,B此时开始发送请求,若是还没有回应,则接着发送C的请求。中间还会不断地检测前面的任务有没有得到回应,检测到回应后就会将对应的任务重新启动。
这大大提升了运行端与服务端之间因为请求与回应的延迟带来的效率浪费,当然也并不是说协程一定快于多线程多进程。具体写法还是要根据实际的爬取任务来编写​。

代码设计

接下来我们就可以接着对前面的程序做一些改动,首先我们增加一个main函数用来存放运行的任务主体。

一开始的设计思路是首先设计一个循环将所有页面的url获取并存放到列表中。再对列表循环发送请求。
如下列代码:

def main():
    url_list = []
    for i in range(1, 25):
        url = f"https://www.iituku.com/lvyou/index_{i}.html?sort=0"
        url_list.append(url)
    for url in url_list:
        pic_url_list = get_pic_url(url)
        asyncio.run(download(pic_url_list))

但经过测试发现这一步不如直接在第一个循环时就对url发送请求,这样节约了二次循环带来的效率浪费
于是我们重新改写:

def main():
    for i in range(1, 25):
        url = f"https://www.iituku.com/lvyou/index_{i}.html?sort=0"
        pic_url_list = get_pic_url(url)
        asyncio.run(download(pic_url_list))

将页面链接循环放在此处后,我们先对get_pic_url()函数改写定义:
首先删除了原先放在该函数里的页面循环,通过url参数传递每个页面的url到函数中,并对页面进行请求,获取图片下载链接。由于这一步并不需要异步操作,所以只定义为普通函数。该函数返回存储图片下载链接的列表

def get_pic_url(url):
        resp = requests.get(url)
        resp.encoding = 'utf-8'
        tree = etree.HTML(resp.text)
        pic_url_string = tree.xpath('//html/body/script[2]/text()')[0]
        obj = re.compile(r'var imagesarr=\"(.*?)\";')
        data = obj.findall(pic_url_string)[0]
        data = str(data).replace('"', '')
        data_list = data.split('}')
        pic_url_list = []
        for li in data_list:
            http = re.findall(r'picture:(.*?)/nu', li)
            if not http:
                continue
            else:
                http_str = http[0]
            http = http_str.replace('\\', '')
            pic_url_list.append(http)
        return pic_url_list

接着对download函数定义。在这步就可以用上我们之前所说的协程概念,在向服务器请求下载数据的过程中,可以接着对下一图片链接发送请求,因此在此处采用协程模块。

创建特殊函数,在普通函数前添加一个async关键字。特殊函数的特点在于被调用后,函数内部的程序语句(函数体)没有被立即执行,且会返回一个协程对象

async def download(src_list):
    tasks = []
    for src in src_list:
        task = asyncio.create_task(download_pic(src))
        tasks.append(task)
    await asyncio.wait(tasks)

​接着在函数内部创建一个tasks列表存储任务对象列表。如上述代码中的task就是一个任务对象,里面指向要运行的函数download_pic()以及需要的参数src,所有任务对象添加到任务列表后,利用await关键字挂起发生阻塞操作的任务对象。然后在对download_pic()函数定义。

async def download_pic(src):
        pic_name = src.split('/')[-1]
        async with aiohttp.ClientSession() as session:
            async with session.get(src) as resp:
                cont = await resp.content.read()
                async with aiofiles.open('./aitu_pic/' + pic_name, mode='wb') as f:
                    await f.write(cont)
                    print(f'{pic_name}下载完成')

需要注意的就是这里对文件的操作不同于普通函数的文件操作,需要使用aiofiles库对文件进行输入输出。并且对链接的请求也需要使用aiohttp库中的ClientSession()方法。​在对二进制文件的读取也要加上.read()方法。

老规矩,编写完后看看运行效果。
在这里插入图片描述在这里插入图片描述可以看到时间其实是差不多的,因为今天下载了347个文件,相较于前文的要多100多个文件。由此可见二者其实并没有太大的效率区别。所以具体的方法选择还是要看爬取的网站到底适合哪一种方式。

末尾附上源码

import asyncio
import time
import aiofiles
import aiohttp
import requests
from lxml import etree
import re


async def download(src_list):
    tasks = []
    for src in src_list:
        task = asyncio.create_task(download_pic(src))
        tasks.append(task)
    await asyncio.wait(tasks)


async def download_pic(src):
        pic_name = src.split('/')[-1]
        async with aiohttp.ClientSession() as session:
            async with session.get(src) as resp:
                cont = await resp.content.read()
                async with aiofiles.open('./aitu_pic/' + pic_name, mode='wb') as f:
                    await f.write(cont)
                    print(f'{pic_name}下载完成')


def get_pic_url(url):
        resp = requests.get(url)
        resp.encoding = 'utf-8'
        tree = etree.HTML(resp.text)
        pic_url_string = tree.xpath('//html/body/script[2]/text()')[0]
        obj = re.compile(r'var imagesarr=\"(.*?)\";')
        data = obj.findall(pic_url_string)[0]
        data = str(data).replace('"', '')
        data_list = data.split('}')
        pic_url_list = []
        for li in data_list:
            http = re.findall(r'picture:(.*?)/nu', li)
            if not http:
                continue
            else:
                http_str = http[0]
            http = http_str.replace('\\', '')
            pic_url_list.append(http)
        return pic_url_list


def main():
    for i in range(1, 25):
        url = f"https://www.iituku.com/lvyou/index_{i}.html?sort=0"
        pic_url_list = get_pic_url(url)
        asyncio.run(download(pic_url_list))


if __name__ == '__main__':
    start_time = time.time()
    main()
    end_time = time.time()
    print('耗时为:', end_time-start_time)

今天内容就说这么多,下期再见。另外跪求各位好汉不要吝啬你们的赞赞,动动手指帮忙赞赞,感激!!​
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/422648.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Zeppelin0.9.0 连接 Hive 3.1.2(踩坑,亲测有效)

一、前提 已经安装好Hadoop、Hive(可以启动hiveserver2)、Zeppelin 1.启动Hadoop [roothurys24 ~]# start-all.sh 2.启动hiveserver2 [roothurys24 ~]# cd /opt/soft/hive312/conf/ [roothurys24 conf]# nohup ../bin/hive --service hiveserver2 &a…

kubernetes之Ingress介绍

Ingress 组成 ingress controller将新加入的Ingress转化成Nginx的配置文件并使之生效 ingress服务将Nginx的配置抽象成一个Ingress对象,每添加一个新的服务只需写一个新的Ingress的yaml文件即可工作原理 1.ingress controller通过和kubernetes api交互&#xff0…

【机器学习(五)】基于KNN模型对高炉发电量进行回归预测分析

文章目录专栏导读1、KNN简介2、KNN回归模型介绍3、KNN模型应用-高炉发电量预测3.1数据集信息:3.2属性信息3.3数据准备3.4数据标准化和划分数据集3.5寻找最佳K值3.6建立KNN模型预测4、完整代码专栏导读 ✍ 作者简介:i阿极,CSDN Python领域新星…

利用74373芯片进行单片机IO口扩展的方法介绍-成都控制设备订做

本文介绍用74373芯片进行微处理器IO口扩展的方法。 1.为什么要进行IO口扩展? 在电路设计的某些时候,微处理器(如单片机)IO口不够用了,此时该怎么办呢?利用辅助芯片进行IO口扩展是个简单直接的方法&#xff…

开源社与 Dev.Together 2022

思否与开源社携手11>2在 2023 年的春天,开源社走进了 Dev.Together 2022 的会场,一时间有种时空错觉。2022 年本该举办的开源聚会因为不可抗力的因素被延期,感谢思否一直坚持的理念:Dev.Together Summit 只做线下,将…

debian 10 安装神州通用数据库 V7.0

debian 10 安装神州通用数据库 V7.01、官方下载链接2、windows客户端下载链接3、官方安装手册4、安装前准备3.1、创建安装用户3.2、以root 用户修改神通数据库安装包的所有者为shentong 用户3.3、以root 用户创建神通数据库主目录并修改所有者为shentong 用户3.4、以root 用户临…

c/c++:顺序结构,if else分支语句,do while循环语句,switch case break语句

c/c:顺序结构,if else分支语句,do while循环语句,switch case break语句 2022找工作是学历、能力和运气的超强结合体,遇到寒冬,大厂不招人,此时学会c的话, 我所知道的周边的会c的同学&#xff…

一文读懂域名注册

本文深入浅出讲解域名的注册、建站和管理,通过文章可以了解以下问题: 域名注册及建站流程;域名注册的技术原理;域名管理(修改 DNS 服务器、转入转出、自定义 DNSHost、whois 信息)。 众所周知,…

【MYSQL】表的增删改查(基础)

文章目录🌷 1. 新增(Create)⭐️ 1.1 单行行数据 指定列插入⭐️ 1.2 多行数据 指定列插入🌷 2. 查询(Retrieve)⭐️ 2.1 全列查询⭐️ 2.2 指定列查询⭐️ 2.3 查询字段为表达式⭐️ 2.4 别名⭐️ 2.5 去…

十五、市场活动:excel导入

功能需求 ①用户在市场活动主页面,点击"导入"按钮,弹出导入市场活动的模态窗口; ②用户在导入市场活动的模态窗口选择要上传的文件,点击"导入"按钮,完成导入市场活动的功能. *只支持.xls *文件大小不超过5MB ③导入成功之后,提示成功导入记录条数,关闭…

(只需三步)如何用chatgpt自动生成思维导图

目录 chatgpt是可以生成思维导图的!只需三步,非常简单! 第一步:打开chatgpt,告诉它主题 第二步,完善思维导图 第三步:查看思维导图的效果 chatgpt是可以生成思维导图的!只需三步&am…

21天学会C++:Day1----C++的发展史

CSDN的uu们,大家好。这里是C入门的第一讲。 座右铭:前路坎坷,披荆斩棘,扶摇直上。 博客主页: 姬如祎 收录专栏:C专题 目录 1. 什么是C 2. C的发展史 3. C的重要性 4. 如何学好C 4.1 别人如何学C 4…

海睿思分享 | 制造业数字化转型之业务场景驱动

在开始谈业务场景驱动之前,我们先介绍一下流程驱动和数据驱动的概念。 首先数据和流程在现代制造业相辅相成,流程中有数据,数据往往通过流程传递,而“驱动”是通过建立一定的驱动机制,改变以往人为的业务推进模式&…

Android UI设计经验分享,掌握设计技巧,让你的应用独树一帜

Android UI渲染是指Android应用程序中的用户界面如何被绘制。Android UI渲染很重要,因为渲染过程直接影响应用程序的性能和用户体验。 当用户在Android应用程序中进行交互时,应用程序会相应地创建并更新UI元素,例如TextView、Button、ImageV…

速下载 | 12项网络与数据安全新国标全文公开

根据2023年3月17日国家市场监督管理总局、国家标准化管理委员会发布的中华人民共和国国家标准公告(2023年第1号),全国信息安全标准化技术委员会归口的12项网络安全国家标准正式发布。近日标准全文正式公开,炼石第一时间搜集整理这…

极氪X上市,18.98万元起售,进军紧凑豪华车市场

HiEV消息(文/Amy)4月12日,纯电SUV极氪X上市,共发布三个版本,官方零售价为: •ME版 五座后驱 189,800元 •YOU版 五座四驱 209,800元 •YOU版 四座后驱 209,800元全系三款车型预计将于6月起开启交付。极氪X限…

【分布式技术专题】「单点登录技术架构」一文带领你好好对接对应的Okta单点登录实现接口服务的实现落地

什么是SAML协议 SAML(Security Assertion Markup Language)是一种基于XML的标准,用于在不同的安全域之间传递身份验证和授权数据。SAML2.0是SAML协议的最新版本,它提供了一种标准的方式来实现单点登录(SSO&#xff09…

1.数据结构---时间复杂度+面试题:消失的数字

文章目录前言1.什么是数据结构?2.什么是算法?3.时间复杂度3.1 实例1:请计算一下Func1中count语句总共执行了多少次?大O的渐进表示法实例2:计算Func2的时间复杂度实例3:计算Func3的时间复杂度?实例4:计算Func4的时间复杂度?大O的渐进表示法总…

Activiti7原生整合和工作流相关概念详解

一、概述 Activiti是一个工作流引擎, Activiti可以将业务系统中复杂的业务流程抽取出来,并用专门的建模语言BPMN2.0进行定义,业务流程按照预先定义的流程进行执行,实现了系统的流程由Activiti进行管理,减少业务系统由…

C++ vasprintf

vasprintf 是一个 C 库函数,它可以通过可变参数创建一个格式化的字符串,并将其存储在动态分配的内存中。它的使用方法与 printf 类似,但它不会将结果打印到标准输出流中,而是将其存储在一个指向字符数组的指针中。 以下是 vasprin…