python项目实战——下载美女图片

news2024/10/19 18:35:40

python项目实战——下载美女图片

文章目录

  • python项目实战——下载美女图片
  • 完整代码
  • 思路整理
  • 实现过程
    • 使用xpath语法找图片的链接
    • 检查链接是否正确
    • 下载图片
    • 创建文件夹
    • 获取一组图片的链接
      • 获取页数
    • 获取目录页的链接
  • 完善代码
  • 注意事项

完整代码

import requests
import re
import pprint
from lxml import etree
import os


# 拿到具体页面的链接下载一张图片
def download_images(url):
    rot = requests.get(url=url)
    rot.encoding=rot.apparent_encoding
    # print(rot.text)
    html = etree.HTML(rot.text)
    try:
        title = html.xpath('//div[@class="ImageBody"]//img/@alt')
        links = html.xpath('//div[@class="ImageBody"]//img/@src')
        # 显示下载内容
        # print(title[0])
        # print(links[0])
        number1 = html.xpath('//li[@class="thisclass"]/a[@href]/text()')
        # print(title[0]+str(number1[0]))
        # print(links[0])

        # 创建文件夹
        if not os.path.exists(f'图片/{title[0]}'):
            os.mkdir(f'图片/{title[0]}')

        pic = requests.get(url=links[0]).content
        with open(f'图片/{title[0]}/{title[0]}{str(number1[0])}.jpg','wb') as f:
            f.write(pic)
            print(f'已下载……{title[0]}{str(number1[0])}') # 提示下载成功
    except:
        print(f'出错了......{url}')


# 给第一个图片的链接,就可以得到其他图片的链接
def link_of_pictures(url):
    rot = requests.get(url=url)
    # print(url) # 检查当前链接是否正确
    rot.encoding=rot.apparent_encoding
    # print(rot.text)
    html = etree.HTML(rot.text)

    features = re.findall('xingganmeinv/(\\d+).htm',url)[0]
    # print(features) # 这一组的特征值,比如http://www.umeituku.com/meinvtupian/xingganmeinv/208585.htm里面的208585

    # 获取页数
    numbers = html.xpath('//div[@class="NewPages"]//ul//li//a/text()')
    number = re.findall('共(\\d+)页',numbers[0])

    # print(number[0]) # 页数
    download_images(url)
    for i in range(2,int(number[0]) + 1):
        # 得到了这组图片的其他链接
        urll = re.sub(r'xingganmeinv/.*', f'xingganmeinv/{features}_{i}.htm', url)
        # print(urll)
        download_images(urll)


# 得到这个系列的单页的链接
url = 'https://www.umeituku.com/meinvtupian/'
header = {'user-agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/127.0.0.0 Safari/537.36 Edg/127.0.0.0'}
rt = requests.get(url=url,headers=header)
rt.encoding = rt.apparent_encoding # apparent_encoding可以自己判断网页的编码方式,然后再传给encoding进行解析
# print(rt.text)
html = etree.HTML(rt.text)
title = html.xpath('//div[@class="TypeList"]//div[@class="ListTit"]/text()')
links = html.xpath('//div[@class="TypeList"]//a[@class="TypeBigPics"]/@href')
# pprint.pprint(title)
# pprint.pprint(links)
for item in links:
    link_of_pictures(str(item))

这个代码还能修改,但是作为掌握爬取网页图片来说,已经足够了

这里的第三个模块,是获取目录页的总链接,也就是第一页所有组的第一张,还能再次翻页,再次使用for循环就可以实现了

思路整理

  1. 获取图片页源代码
  2. 提取所有图片的链接
  3. 保存一组图片
  4. 爬取目录页源代码
  5. 下载图片
  6. 翻页下载

实现过程

首先是下载一张图片,这里最好是找个简单点的网址,不要去找太火的,有反爬机制,对于小白来说有点难

因为我折腾了好几天,提取的链接,就是不能独立下载

脑子突然开窍,换了个网站进度嗖嗖的

这里不推荐网站了,以免对网站造成干扰 想要可以去代码里面找

使用xpath语法找图片的链接

这里去看网页源代码,看看图片是否包含在源代码里面,如果在源代码里面,是最简单的情况

这里使用requests库的get请求,可以得到网页的源代码,找到了图片的位置,就是在源代码里面,如果不在源代码里面需要使用抓包的方式,获取图片的链接

检查链接是否正确

我们从源代码找到图片的链接之后,复制链接去浏览器查看,如果点开就是一张图片,那就成功了,如果不是就换网站

下载图片

我们将得到的图片链接再次给requests模块,保存图片的方式是二进制码流

pic = requests.get(url=links[0]).content

对,就是在requests函数后面再加一个content

就可以得到图片了,现在这个图片被我们保存在pic对象里面

再使用文件操作,就可以把图片保存在本地文件了

因为是二进制码流,我们在保存文件的时候使用wb的方式写入

with open(f'图片/{title[0]}/{title[0]}{str(number1[0])}.jpg','wb') as f:
    f.write(pic)
    print(f'已下载……{title[0]}{str(number1[0])}') # 提示下载成功

能下载图片之后,把上面这部分独立出来做成函数,让别的地方提供网址来使用

# 拿到具体页面的链接下载一张图片
def download_images(url):
    rot = requests.get(url=url)
    rot.encoding=rot.apparent_encoding
    # print(rot.text)
    html = etree.HTML(rot.text)
    try:
        title = html.xpath('//div[@class="ImageBody"]//img/@alt')
        links = html.xpath('//div[@class="ImageBody"]//img/@src')
        # 显示下载内容
        # print(title[0])
        # print(links[0])
        number1 = html.xpath('//li[@class="thisclass"]/a[@href]/text()')
        # print(title[0]+str(number1[0]))
        # print(links[0])

        # 创建文件夹
        if not os.path.exists(f'图片/{title[0]}'):
            os.mkdir(f'图片/{title[0]}')

        pic = requests.get(url=links[0]).content
        with open(f'图片/{title[0]}/{title[0]}{str(number1[0])}.jpg','wb') as f:
            f.write(pic)
            print(f'已下载……{title[0]}{str(number1[0])}') # 提示下载成功
    except:
        print(f'出错了......{url}')


这里我使用了try和except来进行异常捕获

因为在网站第四组图片的第10页是空图片,网址有效,但是没有找到图片

这里让程序进行一个报错,并显示出错的网址,就可以自己查看原因了
请添加图片描述

如下图所示,倘若不使用异常捕获,程序在这个报错的地方就会中断

一开始我还想少保存一张,比如最后一张不保存,那样就浪费数据了

创建文件夹

因为这里的图片都是一组一组的,所以采用创建文件夹的方式,把一组图片放在一个文件夹里面,这个文件夹里面放这一组图片,这个文件夹使用这组图片的标题命名,因为这组图片没有自己的名字,我们还需要人工加个序号

就像上图里面的某某1,某某2等等

使用os库创建文件夹,这个库可以获取程序运行的操作系统,根据不同的操作系统创建不同的文件夹

if not os.path.exists(f'图片/{title[0]}'):
    os.mkdir(f'图片/{title[0]}')

这里是使用if判断语句,判断文件夹是否存在,如果不存在,就使用os.mkdir创建一个

获取一组图片的链接

仔细检查一下,发现对于一组图片来说他们的网址有规律的变化

比如,meinvtupian/xingganmeinv/208585.htm

xingganmeinv/208585_2.htm

只有后面发生了变化

我们可以使用字符串替换函数,配合for循环生成这组图片的链接

# 给第一个图片的链接,就可以得到其他图片的链接
def link_of_pictures(url):
    rot = requests.get(url=url)
    # print(url) # 检查当前链接是否正确
    rot.encoding=rot.apparent_encoding
    # print(rot.text)
    html = etree.HTML(rot.text)

    features = re.findall('xingganmeinv/(\\d+).htm',url)[0]
    # print(features) # 这一组的特征值,比如http://www.umeituku.com/meinvtupian/xingganmeinv/208585.htm里面的208585

    # 获取页数
    numbers = html.xpath('//div[@class="NewPages"]//ul//li//a/text()')
    number = re.findall('共(\\d+)页',numbers[0])

    # print(number[0]) # 页数
    download_images(url)
    for i in range(2,int(number[0]) + 1):
        # 得到了这组图片的其他链接
        urll = re.sub(r'xingganmeinv/.*', f'xingganmeinv/{features}_{i}.htm', url)
        # print(urll)
        download_images(urll)

这里的features就是变化的地方,我管他叫特征值,你们可以随便起名字

获取页数

这里我们可以从源代码里面找到这一组图片的页数

然后根据页数生成链接,再让上面的函数去访问图片

错误示范:
请添加图片描述

一开始的时候发现,在图片的下面可以选择页数,点击第几页就会跳转,根据这个思路,好像可以把这个页数链接爬下来,制成列表再挨个访问

对于页数少的还可以,但是这个直接跳转只能最多显示7页,哪怕共10页,从第一页最多跳转到第7页

所以没办法直接从页面获取链接,只能根据规律自己改写链接

  for i in range(2,int(number[0]) + 1):
        # 得到了这组图片的其他链接
        urll = re.sub(r'xingganmeinv/.*', f'xingganmeinv/{features}_{i}.htm', url)
        # print(urll)
        download_images(urll)

也就是得到页数,进行n次循环就好了

获取目录页的链接

从目录页可以看到多组图片的第一页,直接点击也可以完成跳转

检查源代码,发现每组图片的首页链接可以被爬取

# 得到这个系列的单页的链接
url = 'https://www.umeituku.com/meinvtupian/'
header = {'user-agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/127.0.0.0 Safari/537.36 Edg/127.0.0.0'}
rt = requests.get(url=url,headers=header)
rt.encoding = rt.apparent_encoding # apparent_encoding可以自己判断网页的编码方式,然后再传给encoding进行解析
# print(rt.text)
html = etree.HTML(rt.text)
title = html.xpath('//div[@class="TypeList"]//div[@class="ListTit"]/text()')
links = html.xpath('//div[@class="TypeList"]//a[@class="TypeBigPics"]/@href')
# pprint.pprint(title)
# pprint.pprint(links)
for item in links:
    link_of_pictures(str(item))

这里的url是目录页的链接

links是每组的首页链接列表

完善代码

这里的获取目录页链接还能再改,把这个操作改成函数,还能再写for循环,访问所有的目录页

貌似有成百上千个,这里作为代码展示就不写了,有能力的可以试试

注意事项

这段代码不能独立工作,必须放在项目里面

这个代码运行成功之后我就想做成exe程序,但是里面涉及了文件保存的地址,还有一些库函数

ai帮忙改了一下,让程序获取文件所在的位置,倒是解决了必须放在项目里面的问题,但是依旧不能打包exe或者文件夹

import requests
import re
import pprint
from lxml import etree
import os

# 获取当前脚本的绝对路径
current_directory = os.path.dirname(os.path.abspath(__file__))
image_directory = os.path.join(current_directory, '图片')

# 拿到具体页面的链接下载一张图片
def download_images(url):
    rot = requests.get(url=url)
    rot.encoding = rot.apparent_encoding
    html = etree.HTML(rot.text)
    try:
        title = html.xpath('//div[@class="ImageBody"]//img/@alt')
        links = html.xpath('//div[@class="ImageBody"]//img/@src')
        number1 = html.xpath('//li[@class="thisclass"]/a[@href]/text()')  # 在这里提取 number1

        # 确保 title 和 number1 都有值
        if not title or not number1:
            print(f"未能提取标题或编号,URL: {url}")
            return

        # 创建文件夹
        image_folder = os.path.join(image_directory, title[0])
        if not os.path.exists(image_folder):
            os.makedirs(image_folder)  # 使用 makedirs 可以创建多层目录

        pic = requests.get(url=links[0]).content
        with open(os.path.join(image_folder, f'{title[0]}{str(number1[0])}.jpg'), 'wb') as f:
            f.write(pic)
            print(f'已下载……{title[0]}{str(number1[0])}')  # 提示下载成功
    except Exception as e:
        print(f'出错了......{url}, 错误信息: {e}')

# 给第一个图片的链接,就可以得到其他图片的链接
def link_of_pictures(url):
    rot = requests.get(url=url)
    rot.encoding = rot.apparent_encoding
    html = etree.HTML(rot.text)

    features = re.findall('xingganmeinv/(\\d+).htm', url)[0]

    # 获取页数
    numbers = html.xpath('//div[@class="NewPages"]//ul//li//a/text()')
    number = re.findall('共(\\d+)页', numbers[0])

    download_images(url)
    for i in range(2, int(number[0]) + 1):
        urll = re.sub(r'xingganmeinv/.*', f'xingganmeinv/{features}_{i}.htm', url)
        download_images(urll)

# 得到这个系列的单页的链接
url = 'https://www.umeituku.com/meinvtupian/'
header = {'user-agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/127.0.0.0 Safari/537.36 Edg/127.0.0.0'}
rt = requests.get(url=url, headers=header)
rt.encoding = rt.apparent_encoding
html = etree.HTML(rt.text)
title = html.xpath('//div[@class="TypeList"]//div[@class="ListTit"]/text()')
links = html.xpath('//div[@class="TypeList"]//a[@class="TypeBigPics"]/@href')

for item in links:
    link_of_pictures(str(item))

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2217358.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

图文检索综述(2):Deep Multimodal Data Fusion

Deep Multimodal Data Fusion 摘要1 引言2 基于编码器-解码器融合2.1 数据级别融合2.2 分层特征融合2.3 决策级别融合 3 基于注意力融合3.1 模态内的自注意力3.2 模态间的交叉注意力3.3 基于transformer的方法 4 基于图神经网络融合4.1 单个模态的表示学习4.2 融合数据的表示学…

【数据结构】宜宾大学-计院-实验三

线性表的应用——实现两多项式的相加 课前准备:实验学时:2实验目的:实验内容:实验结果:实验报告:(及时撰写实验报告)实验测试结果:代码实现:(C/C)…

Java 小游戏《超级马里奥》

文章目录 一、效果展示二、代码编写1. 素材准备2. 创建窗口类3. 创建常量类4. 创建动作类5. 创建关卡类6. 创建障碍物类7. 创建马里奥类8. 编写程序入口 一、效果展示 二、代码编写 1. 素材准备 首先创建一个基本的 java 项目,并将本游戏需要用到的图片素材 image…

华为 HCIP-Datacom H12-821 题库 (38)

🐣博客最下方微信公众号回复题库,领取题库和教学资源 🐤诚挚欢迎IT交流有兴趣的公众号回复交流群 🦘公众号会持续更新网络小知识😼 1.请对 2001:0DB8:0000:C030:0000:0000:09A0:CDEF 地址进行压缩。( )&…

阻塞I/O与非阻塞I/O

目录 一、基本概念 二、阻塞I/O的实现机制 —— 等待队列 一、基本概念 阻塞:在执行单元进行操作时,如果不能获得申请的资源,则执行单元挂起直至资源可用后再进行操作。 非阻塞:在执行单元进行操作时,如果不能获得申…

UDP反射放大攻击防范手册

UDP反射放大攻击是一种极具破坏力的恶意攻击手段。 一、UDP反射放大攻击的原理 UDP反射放大攻击主要利用了UDP协议的特性。攻击者会向互联网上大量的开放UDP服务的服务器发送伪造的请求数据包。这些请求数据包的源IP地址被篡改为目标受害者的IP地址。当服务器收到这些请求后&…

爬虫实战(黑马论坛)

1.定位爬取位置内容: # -*- coding: utf-8 -*- import requests import time import re# 请求的 URL 和头信息 url https://bbs.itheima.com/forum-425-1.html headers {user-agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like…

DBSwitch和Seatunel

一、DBSwitch 什么是DBSwitch?它主要用在什么场景? 通过步骤分析可以看到这个是通过配置数据源,采用一次性或定时方案,同步到数据仓库的指定表,并且指定映射关系的工具。有点类似于flinkcdc的增量同步。 参考: dbs…

【实战案例】SpringBoot项目中异常处理通用解决方案

项目中经常会出现一些异常,比如在新增项目的时候必要的字段没有填写。在springboot项目中,遇到异常会往上抛出给调用方,DAO层遇到异常抛给Service层,Service层遇到异常抛给Controller层,Controller层遇到异常就抛给了S…

Qt-系统网络HTTP客户端(66)

目录 描述 相关函数 使用 准备工作 处理响应 测试 代码 补充 描述 进⾏ Qt 开发时, 和服务器之间的通信很多时候也会⽤到 HTTP 协议 Qt 中提供了客户端,但是并没有提供相应的服务器的库,所以这里我们只讨论 客户端 • 通过 HTTP 从服务器获取…

Unity 2d UI 实时跟随场景3d物体

2d UI 实时跟随场景3d物体位置&#xff0c;显示 3d 物体头顶信息&#xff0c;看起来像是场景中的3dUI&#xff0c;实质是2d UIusing System.Collections; using System.Collections.Generic; using UnityEngine; using DG.Tweening; using UnityEngine.UI; /// <summary>…

RequestBody接收参数报错com.fasterxml.jackson.databind.exc.MismatchedInputException

目录&#xff1a; 1、错误现象2、解决办法3、最终验证 1、错误现象 报错的现象和代码如下&#xff1a; 2、解决办法 查了很多都说参数类型对不上&#xff0c;但是明明是对上的&#xff0c;没有问题&#xff0c;最后只有换接收方式后验证是可以的&#xff1b;最终想了一下&…

Flink状态一致性保证

前言 一个Flink作业由一系列算子构成&#xff0c;每个算子可以有多个并行实例&#xff0c;这些实例被称为 subTask&#xff0c;每个subTask运行在不同的进程或物理机上&#xff0c;以实现作业的并行处理。在这个复杂的分布式场景中&#xff0c;任何一个节点故障都有可能导致 F…

智能算力中心万卡GPU集群架构深度解析

智能算力中心万卡GPU集群架构深度分析 自ChatGPT发布&#xff0c;科技界大模型竞赛如火如荼。数据成新生产要素&#xff0c;算力成新基础能源&#xff0c;大模型成新生产工具&#xff0c;“AI”转型势不可挡。模型参数量突破万亿&#xff0c;对算力需求升级&#xff0c;超万卡…

Docker学习笔记(2)- Docker的安装

1. Docker的基本组成 镜像&#xff08;image&#xff09;&#xff1a;Docker镜像就像是一个模板&#xff0c;可以通过这个模板来创建容器服务。通过一个镜像可以创建多个容器。最终服务运行或者项目运行就是在容器中。容器&#xff08;container&#xff09;&#xff1a;Docker…

Ansible概述

目录 一、ansible简介 二、absible的特点 三、ansible的工作原理以及流程 四、ansible环境安装部署 五、ansible命令行模块 六、inventory 主机清单 一、ansible简介 Ansible是一个基于Python开发的配置管理和应用部署工具&#xff0c;现在也在自动化管理领域大放异彩。…

MT1341-MT1350 码题集 (c 语言详解)

MT1341反比例函数 c 语言实现代码 #include <stdio.h>double f(double x) { return 1.0 / x; }double trapezoidal_integration(double a, double b, int n) {// computer step lengthdouble h (b - a) / n;// computer points valuedouble sum (f(a) f(b)) / 2.0;//…

初阶数据结构【2】--顺序表(详细且通俗易懂,不看一下吗?)

本章概述 线性表顺序表顺序表问题与思考彩蛋时刻&#xff01;&#xff01;&#xff01; 线性表 概念&#xff1a;一些在逻辑上成线性关系的数据结构的集合。线性表在逻辑上一定成线性结构&#xff0c;在物理层面上不一定成线性结构。常见的线性表&#xff1a;顺序表&#xff0…

Origin画图——百分比堆积柱状图(深度学习篇)

1.当数据有以下特征&#xff0c;不同特征在不同情况下的数值的时候就可以使用百分比柱状图表示。 1 2.将自己的数据导入到Origin中&#xff0c;本示例中以不同机器学习的方法的在不同测试集下的R2作为示例。数据如下所示。绘图百分比柱状图&#xff0c;两种都可以。 3.生成的…

推荐一个可以免费上传PDF产品图册的网站

​在数字化时代&#xff0c;企业将产品图册以PDF格式上传至网络&#xff0c;不仅便于客户浏览和下载&#xff0c;还能提升企业的专业形象。今天&#xff0c;就为您推荐一个可以免费上传PDF产品图册的网站——FLBOOK&#xff0c;轻松实现产品图册的在线展示。 1.注册登录&#x…