python 批量下载图片(协程)

news2024/11/26 0:44:43

要下载的图片网站

 1、总共多少页,得到每页的 url 列表

 

2、每页的图片详情的 ulr 列表(因为该高清大图在图片详情页,因此需要去图片详情页拿图片的url)

​​​​​​​

 

 

3、进入图片详情页,获取到图片url 然后下载。

 

完整代码如下:

import aiofiles
import aiohttp
import asyncio
import requests
from lxml import etree

# 下载单个图片
async def download_one(url):
    print("开始下载", url)
    name = url[0].split("/")[-1][:-4]
    head = {
        'Host': 'file.jiutuvip.com',
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:109.0) Gecko/20100101 Firefox/114.0',
        'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/avif,image/webp,*/*;q=0.8',
        'Accept-Language': 'zh-CN,zh;q=0.8,zh-TW;q=0.7,zh-HK;q=0.5,en-US;q=0.3,en;q=0.2',
        'Accept-Encoding': 'gzip, deflate, br',
        'Connection': 'keep-alive',
        'Upgrade-Insecure-Requests': '1',
        'Sec-Fetch-Dest': 'document',
        'Sec-Fetch-Mode': 'navigate',
        'Sec-Fetch-Site': 'none',
        'Sec-Fetch-User': '?1',
        'TE': 'trailers'
    }
    # 发送网络请求
    async with aiohttp.ClientSession() as session:
        async with session.get(url=url[0], headers=head) as resp:  # 相当于 requests.get(url=url[0], headers=head)
            # await resp.text() => resp.text
            content = await resp.content.read()  # => resp.content
            # 写入文件
            async with aiofiles.open('./img/' + name + '.webp', "wb") as f:
                await f.write(content)
    print("下载完毕")

# 获取图片的url
async def download(href_list):
    for href in href_list:
        async with aiohttp.ClientSession() as session:
            async with session.get(url=href) as child_res:
                html = await child_res.text()
                child_tree = etree.HTML(html)
                src = child_tree.xpath("//div[@class='img_box']/a/img/@src") # 选手图片地址 url 列表
                await download_one(src)

# 获取图片详情url
async def get_img_url(html_url):
    async with aiohttp.ClientSession() as session:
        async with session.get(url=html_url) as resp:
            html = await resp.text()
            tree = etree.HTML(html)
            href_list = tree.xpath("//div[@class='list-box-p']/ul/li/a/@href")  # 选手详情页 url 列表
            print(href_list)
            await download(href_list)
# 页面总页数
def get_html_url(url):
    page = 2
    response = requests.get(url=url)
    response.encoding = "utf-8"
    tree = etree.HTML(response.text)
    total_page = tree.xpath("//*[@id='pages']/a[12]/text()")  # 页面总页数
    print(total_page)
    html_url_list = []
    while page <= 4:  # int(total_page[0])  页数太多,本例只取第 2、3、4 页
        next_url = f"https://www.yeitu.com/meinv/xinggan/{page}.html"
        html_url_list.append(next_url)
        page += 1
    return html_url_list

async def main():
    # 拿到每页url列表
    url = "https://www.yeitu.com/meinv/xinggan/"
    html_url_list = get_html_url(url=url)  # 588个页面的url列表
    tasks = []
    for html_url in html_url_list:
        t = asyncio.create_task(get_img_url(html_url))  # 创建任务
        tasks.append(t)
    await asyncio.wait(tasks)

if __name__ == '__main__':
    event_loop = asyncio.get_event_loop()
    event_loop.run_until_complete(main())

结果如图所示:

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/774137.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

玩转代码|详细盘点JavaScript 数据类型

目录 什么是JavaScript JavaScript 拥有动态类型 JavaScript 字符串 JavaScript 数字 JavaScript 布尔 JavaScript 数组 JavaScript 对象 Undefined 和 Null JS 中如何判断 undefined JS 中如何判断 null 声明变量类型 什么是JavaScript JavaScript&#xff08;简称…

“nacos is starting with cluster”之nacos启动报错问题

下载并解压nacos后&#xff0c;通过点击startup.cmd启动nacos&#xff0c;出现nacos is starting with cluster的错误&#xff0c;导致nacos未能启动成功。 这是因为&#xff0c;通过startup.cmd命令启动nacos&#xff0c;默认是以集群的方式进行启动的&#xff0c;我们可以改…

为3.7亿用户提供优质服务的微众银行,如何保障应用安全、及时上线

微众银行成立于2014年&#xff0c;是国内首家数字银行。作为银行业改革创新的产物&#xff0c;开业八年多来&#xff0c;微众银行积极把握数字经济时代发展新机遇&#xff0c;运用科技手段为小微企业及普罗大众提供特色化、差异化的优质金融服务&#xff0c;在以数字普惠金融服…

地下供水管漏水监测-供水管道漏水监测设备

地下供水管道作为城市供水系统的重要组成部分&#xff0c;承载着为居民和企业提供清洁饮用水的重要使命。然而&#xff0c;由于管道老化、施工质量、外力损伤等因素&#xff0c;地下供水管道泄漏问题时有发生&#xff0c;这不仅造成了宝贵的水资源浪费&#xff0c;还会导致供水…

流程编排及可视化

写在前面 这里只介绍liteflow的简单基础使用以及作者对liteflow进行可视化扩展的相关阐述 一、背景及意义 背景&#xff1a;对于拥有复杂业务逻辑的系统承载着核心业务逻辑&#xff0c;这些核心业务逻辑涉及内部逻辑运算&#xff0c;缓存操作&#xff0c;持久化操作&#xf…

LiveQing视频点播RTMP推流直播功能-点播拉转在线资源拉转转推到鉴权直播间云端录像集中录像存储

LiveQing点播拉转在线资源拉转转推到鉴权直播间云端录像集中录像存储 1、基本功能2、拉转直播2.1、点播资源拉转2.2、在线资源拉转2.3、服务器本地文件拉转 3、拉转直播如何录像&#xff1f;4、RTMP推流视频直播和点播流媒体服务 1、基本功能 LiveQing RTMP直播点播流媒体服务…

Electron运行报错: Failed to fetch extension, trying ...

Script: "electron:serve": "vue-cli-service electron:serve", 运行 npm run electron:serve 时报错&#xff1a; 解决方法&#xff1a; 检查你的electron配置文件也就是 vue.config.js 中的 mian 的文件 注释其中关于开发工具安装的部分&#xff1a;…

搭建zyplayer-doc个人WIKI文档管理工具,问题记录及简单使用

目录 项目简介各模块介绍项目部署准备工作修改配置及数据库初始化 编译部署编译后文件前后端在同一个部署包当中&#xff08;无需单独部署前端&#xff09; 环境部署目录规划启动脚本编写登录 部署问题记录错误: 找不到或无法加载主类Failed to instantiate [javax.sql.DataSou…

Linux--标记位:flag

我们知道&#xff0c;标记位赋予的值不同&#xff0c;就会生成不同的选项。那么如何给一个变量的位置赋予多个值呢&#xff1f; int整型有32个比特位&#xff0c;故我们可以通过改变位的方式改变值的大小 示例&#xff1a; #include <stdio.h> #include <unistd.h&…

Pandas数据分析库详解

概要 Pandas是一个基于 NumPy 的非常强大的开源数据处理库&#xff0c;它提供了高效、灵活和丰富的数据结构和数据分析工具&#xff0c;当涉及到数据分析和处理时&#xff0c;使得数据清洗、转换、分析和可视化变得更加简单和高效。本文中&#xff0c;我们将学习如何使用Panda…

ABeam News | 聚智同行,制胜未来,ABeam Consulting出席2023思爱普中国峰会

News 6月14日&#xff0c;2023思爱普中国峰会在北京盛大召开。本届峰会以“创新赋能高质量发展”为主题&#xff0c;现场汇聚了业界大咖、行业专家和众多客户伙伴&#xff0c;聚焦数字化加速、全球化出海、可持续发展等主题。ABeam Consulting作为SAP金牌合作伙伴及本次峰会的…

MDK版本坑error: A1167E: Invalid line start

移植threadx时对于.s的汇编文件报了大量错误&#xff0c;到文件里查看是汇编文件中的注释使用的C的注释方法&#xff0c;导致大量报错 MDK官网查到原因&#xff0c;一个是版本问题&#xff0c;一个是设置问题&#xff0c; https://developer.arm.com/documentation/ka002247…

mac端好用的多功能音频软件 AVTouchBar for mac 3.0.7

AVTouchBar是来自触摸栏的视听播放器&#xff0c;将跳动笔记的内容带到触摸栏&#xff0c;触摸栏可显示有趣的音频内容&#xff0c;拥有更多乐趣&#xff0c;以一种有趣的方式播放音乐&#xff0c;该软件支持多种音频播放软件&#xff0c;可在Mac上自动更改音乐~ 音频选择-与内…

刷个宇宙题:剑指 Offer II 006. 排序数组中两个数字之和、 007. 数组中和为 0 的三个数

题目 006. 排序数组中两个数字之和 方法1&#xff1a;哈希表的方式 class Solution { public:vector<int> twoSum(vector<int>& numbers, int target) {//存一个key-value (值&#xff0c;index)unordered_map<int, int> ValueMap;int i 0;for(auto nu…

【内网自制无需密码的SSL证书--适用与IP或者localhost】

内网自制无需密码的SSL证书--适用与IP或者localhost 前言步骤确认是否安装openssl自制CA私钥自制csr文件免除密码自制CA证书 验证 前言 搞半死&#xff0c;原来这么简单&#xff0c;今天就把教程分享给大家&#xff0c;本文基于CentOS7环境的openssl生成SSL自制证书&#xff0…

项目实战Qt网盘系统

背景&#xff1a;随着时代的发展&#xff0c;业务数据量的剧增及移动办公需求&#xff0c;人们对内存的需求越来越强&#xff0c;传统的存储产品&#xff0c;在容量及携带型日益不能满足人工的工作需求&#xff0c;网盘再此背景下应运而生。网盘是能够提供文件同步&#xff0c;…

python用scrapy框架爬取双色球数据

1、今天刷到朋友圈&#xff0c;看到一个数据&#xff0c;决定自己也要来跟随下潮流&#xff08;靠天吃饭&#xff09; 去百度了下&#xff0c;决定要爬的网站是https://caipiao.ip138.com/shuangseqiu/ 分析&#xff1a;根据图片设计数据库便于爬取保存数据&#xff0c;时间&am…

最牛版主力资金指标公式_通达信公式

VAR2:(CLOSE-LLV(LOW,14))/(HHV(HIGH,11)-LLV(LOW,11))*100; 主力做多资金: SMA(VAR2,8,1)0.2,LINETHICK2,COLORFFFFFF; VAR1:(HHV(HIGH,13)-CLOSE)/(HHV(HIGH,22)-LLV(LOW,22))*100; 个股做空资金: SMA(VAR1,5,1)0.17,LINETHICK2,COLORFFFF00; 80,POINTDOT,COLORWHITE; 50,POI…

ggraph做环形网络互作图---一个简单的例子

之前我们写过很多精彩的网络图帖子&#xff1a; ❝ graph包&#xff1a;圆状网络图的绘制|互作网络图|基因通路网络图 新方法---大型网络图绘制---ggraph包 学做NAR图表&#xff1a;ggraph做网络图 复现《Cell stem cell》图表&#xff1a;STRING互作分析igraph绘制大型蛋白互作…

【代码随想录 | Leetcode | 第二天】数组 | 移除元素

前言 欢迎来到小K的Leetcode|代码随想录|专题化专栏&#xff0c;今天将为大家带来双指针法和相向双指针的分享✨ 目录 前言27. 移除元素总结 27. 移除元素 ✨题目链接点这里 给你一个数组 nums 和一个值 val&#xff0c;你需要 原地 移除所有数值等于val的元素&#xff0c;并…