Python爬虫实战-批量爬取美女图片网下载图片

news2024/10/6 4:09:46

大家好,我是python222小锋老师。

近日锋哥又卷了一波Python实战课程-批量爬取美女图片网下载图片,主要是巩固下Python爬虫基础

视频版教程:

Python爬虫实战-批量爬取美女图片网下载图片 视频教程_哔哩哔哩_bilibiliPython爬虫实战-批量爬取美女图片网下载图片 视频教程作者:小锋老师官网:www.python222.com本课程旨在让大家在网站Python爬虫的基础上,实战巩固Python爬虫技术后期会继续推出进阶,高级课程,敬请期待。, 视频播放量 354、弹幕量 1、点赞数 20、投硬币枚数 8、收藏人数 21、转发人数 5, 视频作者 java1234官方, 作者简介 公众号:java1234 微信:java9266,相关视频:Python爬虫实战-批量爬取下载网易云音乐,爬虫学得好!牢饭吃到饱...全网最全爬虫JS逆向案例!企业级爬虫逆向实战(逆向各种加密、参数、验证码、滑块、算法)建议立刻收藏!,2024 一天掌握python爬虫【基础篇】 涵盖 requests、beautifulsoup、selenium 【无废话版】,Gateway微服务网关视频教程(无废话版),Nacos视频教程(无废话版),打造前后端分离 权限系统 基于SpringBoot2+SpringSecurity+Vue3.2+Element Plus 视频教程 (火爆连载更新中..),2023版uniapp从入门到上天视频教程(Java后端无废话版),火爆更新中...,微信小程序(java后端无废话版)视频教程,Java8 Lambda表达式视频教程(无废话版),Docker快速手上视频教程(无废话版)icon-default.png?t=N7T8https://www.bilibili.com/video/BV1ue411X7JU/

爬虫目标网站:

https://pic.netbian.com/4kmeinv/

经过分析,第二页,第二页的规律是:

https://pic.netbian.com/4kmeinv/index_N.html

复杂问题简单化:先爬取首页,然后再进行多页爬虫代码的实现。

通过开发者工具分析

img的路径是 ul.clearfix li a img

爬虫三步骤,

1,根据请求url地址获取网页源码,用requests库

2,通过bs4解析源码获取需要的数据

3,通过数据处理我们的资源,我们这里是通过图片路径下载到本地

所以我们实现首页图片下载的源码参考如下:具体代码分析,可以学习下帖子开头的视频教程

"""
    爬取目标:https://pic.netbian.com/ 彼岸图网
    首页地址:
    https://pic.netbian.com/4kmeinv/
    第N页
    https://pic.netbian.com/4kmeinv/index_N.html
    https://pic.netbian.com/uploads/allimg/231101/012250-16987729706d69.jpg
    作者:小锋老师
    官网:www.python222.com
"""
import os.path

import requests
from bs4 import BeautifulSoup

url = "https://pic.netbian.com/4kmeinv/"

headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/118.0.0.0 Safari/537.36'
}

# 请求网页
response = requests.get(url=url, headers=headers)
response.encoding = "gbk"
# print(response.text)

# 实例化soup
soup = BeautifulSoup(response.text, "lxml")
# 获取所有图片
img_list = soup.select("ul.clearfix li a img")
print(img_list)


def download_img(src):
    """
        下载图片
    :param src: 图片路径
    :return:
    """
    # 获取图片名称
    filename = os.path.basename(src)
    print(filename)
    # 下载图片
    try:
        with open(f"./img/{filename}", "wb") as file:
            file.write(requests.get("https://pic.netbian.com" + src).content)
    except:
        print(src, "下载异常")


for img in img_list:
    print(img["src"])
    download_img(img["src"])

运行代码,一页数据20个。

实现多页的下载的话,我们肯定需要通过遍历所有url,然后实现批次下载;那么对于抓取网页,和解析网页,我们需要进行封装,那才方便调用。

def crawl_html(url):
    """
        解析网页
    :param url: 请求地址
    :return: 解析后的网页源码
    """
    # 请求网页
    response = requests.get(url=url, headers=headers)
    response.encoding = "gbk"
    return response.text

def parse_html(html):
    # 实例化soup
    soup = BeautifulSoup(html, "lxml")
    # 获取所有图片
    img_list = soup.select("ul.clearfix li a img")
    print(img_list)
    for img in img_list:
        print(img["src"])
        download_img(img["src"])

完整源码参考:具体代码分析,可以学习下帖子开头的视频教程

"""
    爬取目标:https://pic.netbian.com/ 彼岸图网
    首页地址:
    https://pic.netbian.com/4kmeinv/
    第N页
    https://pic.netbian.com/4kmeinv/index_N.html
    https://pic.netbian.com/uploads/allimg/231101/012250-16987729706d69.jpg
    作者:小锋老师
    官网:www.python222.com
"""
import os.path

import requests
from bs4 import BeautifulSoup

headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/118.0.0.0 Safari/537.36'
}


def crawl_html(url):
    """
        解析网页
    :param url: 请求地址
    :return: 解析后的网页源码
    """
    # 请求网页
    response = requests.get(url=url, headers=headers)
    response.encoding = "gbk"
    return response.text


def download_img(src):
    """
        下载图片
    :param src: 图片路径
    :return:
    """
    # 获取图片名称
    filename = os.path.basename(src)
    print(filename)
    # 下载图片
    try:
        with open(f"./img/{filename}", "wb") as file:
            file.write(requests.get("https://pic.netbian.com" + src).content)
    except:
        print(src, "下载异常")


def parse_html(html):
    # 实例化soup
    soup = BeautifulSoup(html, "lxml")
    # 获取所有图片
    img_list = soup.select("ul.clearfix li a img")
    print(img_list)
    for img in img_list:
        print(img["src"])
        download_img(img["src"])


# # 第一页
# url = "https://pic.netbian.com/4kmeinv/"
# parse_html(crawl_html(url))
# # 第二页到第七页
# for i in range(2, 8):
#     parse_html(crawl_html(f"https://pic.netbian.com/4kmeinv/index_{i}.html"))

urls = ["https://pic.netbian.com/4kmeinv/"] + [
    f"https://pic.netbian.com/4kmeinv/index_{i}.html"
    for i in range(2, 8)
]
print(urls)
for url in urls:
    parse_html(crawl_html(url))

运行下载,正好7页的图片,140个。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1187277.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

本地数据库迁移到云端服务器

工具迁移xtrabackup 创建云服务器——通过云服务器提供的公网地址远程连接XShell——利用迁移工具将数据库从本地迁移到云服务器 (1)创建云服务器 (2)远程连接XShell (3)yum安装mysql (4&…

spider-node-初识

spider-node spider想解决的问题1:业务架构层面2:代码层面3:业务,产品,研发,测试之间4: 系统迭代成本高 spider-node 配置讲解spider-node启动 spider想解决的问题 1:业务架构层面 帮助研发团队…

给定 n 个整数,求里面出现次数最多的数,如果有多个重复出现的数,求值最大的那个 给定n个整数,求里面出现次数最多的数,如果有多个重复出现的数,求出值最大的一

题目描述&#xff1a;给定 n 个整数&#xff0c;求里面出现次数最多的数&#xff0c;如果有多个重复出现的数&#xff0c;求值最大的那个 输入格式 第一行输入一个整数n(1<n100000)&#xff0c;接下来一行输入n个int 范围内的整数 输出格式 输出出现次数最多的数和出现的…

https证书免费申请

JoySSL是一个提供免费HTTPS证书的权威证书颁发机构&#xff08;CA&#xff09;&#xff0c;其证书广泛应用于网站安全领域。JoySSL致力于提供高质量、安全、可靠的HTTPS证书&#xff0c;以满足各种规模网站的需求。 首先&#xff0c;您需要访问JoySSL的官方网站&#xff0c;并…

【C++】stack | queue | priority_queue | deque

一、stack栈 介绍 1.栈是一种特殊的线性表&#xff0c;其元素遵循“后进先出”的原则&#xff0c;即仅允许在在表的一端进行插入、删除操作&#xff0c;这一模式被称为“后进先出”或LIFO&#xff08;last in fisrt out&#xff09;。 2.从底层实现来看&#xff0c;stack是作…

07-MySQL-进阶-锁InnoDB引擎MySQL管理

涉及资料 链接&#xff1a;https://pan.baidu.com/s/1M1oXN_pH3RGADx90ZFbfLQ?pwdCoke 提取码&#xff1a;Coke 一、锁 ①&#xff1a;概述 锁是计算机协调多个进程或线程并发访问某一资源的机制。在数据库中&#xff0c;除传统的计算资源&#xff08;CPU、RAM、I/O&#xf…

【AI编程】ai编程插件汇总iFlyCode、codegeex

1、iFlyCode 开发公司&#xff1a;讯飞 支持IDE: VS Code、IntelliJ IDEA、CLion、PyCharm、WebStorm 支持语言: Python、JavaScript、C、Java 下载地址&#xff1a;https://iflycode.xfyun.cn/ iFlyCode 快捷键列表&#xff1a;  Tab 采纳建议  Esc 拒绝建议  Alt\ 主动…

【NetCore】企业微信你消息推送

前言 慢慢脱离一线开发工作,突然接到一个改善提案需要增加类似短信业务消息提醒。考虑到目前已开通企业微信且短信服务一般需要收费,决定采用企业微信消息提醒。 流程 微信等相关的第三方开发大致流程都类似,如下 注册账号账号认证(为了权限,当然企业微信内部应用不需要…

【数据结构与算法】DFA算法-关键词匹配-java案例实现

该算法往往是用于匹配一些敏感词、绝对词等&#xff0c;从一篇文章中快速找到其中包含的关键词。 实现思路&#xff1a; 先读取所有关键词并存入set集合中。再将set中的关键词存入HashMap中&#xff0c;是以每个关键词字顺序存储&#xff0c;key为一个字、value为一个HashMap。…

机器视觉人体跌倒检测系统 - opencv python 计算机竞赛

0 前言 &#x1f525; 优质竞赛项目系列&#xff0c;今天要分享的是 &#x1f6a9; 机器视觉人体跌倒检测系统 该项目较为新颖&#xff0c;适合作为竞赛课题方向&#xff0c;学长非常推荐&#xff01; &#x1f947;学长这里给一个题目综合评分(每项满分5分) 难度系数&…

frida hook(深入浅出)

Andrax搭建Android渗透测试环境 编译官方frida源码 APP基于Frida脱壳 Frida Hook的使用方法 Frida逆向分析APP实战 魔改frida到绕过检测的思路 配置fridaserver为后台进程 使用frida-net玩转frida-rpc 内置frida hook到Android系统 内置frida-inject工具到手机系统 三…

I/O控制器

一、概述 I/O设备管理-机械部件(I/O硬件设备)电子部件(I/O控制器)接口(设备与控制器间通信媒介) 二、组成 各寄存器间的编址方式&#xff1a; 三、控制方式 1.轮询程序控制 2.中断程序控制 3.直接存储器访问(DMA)

漏刻有时百度地图API实战开发(3)自动获取地图多边形中心点坐标

在百度地图中&#xff0c;多边形覆盖物表示地图上的多边形区域。这些区域可以是封闭的&#xff0c;也可以是开放的。多边形覆盖物通常用于表示地图上的行政区划、地标或任何需要强调的区域。 多边形覆盖物拥有自己的地理坐标&#xff0c;并能随着地图的拖动或缩放而相应地移动…

2023最新最全【Adobe After Effection 2023】下载安装零基础教程【附安装包】

AE2023下载点这里 教学 1.鼠标右击【Ae2023(64bit)】压缩包选择&#xff08;win11系统需先点击“显示更多选项”&#xff09;【解压到 Ae2023(64bit)】。 2.打开解压后的文件夹&#xff0c;鼠标右击【Set-up】选择【以管理员身份运行】。 3.点击【文件夹图标】&#xff0c;…

Scala爬虫如何实时采集天气数据?

这是一个基本的Scala爬虫程序&#xff0c;使用了Scala的http library来发送HTTP请求和获取网页内容。在爬取天气预报信息时&#xff0c;我们首先需要创建一个代理对象proxy&#xff0c;并将其用于发送HTTP请求。然后&#xff0c;我们使用http库的GET方法获取网页内容&#xff0…

Leetcode-LCR 021 删除链表的倒数第 N 个结点

快慢指针&#xff0c;快指针先移动n-1个节点后&#xff0c;慢指针从虚拟头结点出发&#xff08;相当于快慢指针相隔n个节点&#xff09;&#xff0c;快慢指针一起向链表尾依次移动一个结点&#xff0c;当快指针移动到表位时&#xff0c;慢指针正好移到被删除元素的前一个结点&a…

扭矩传感器采用一阶RC滤波

扭矩传感器内部的一阶RC&#xff08;电阻-电容&#xff09;滤波器是一种用于滤除高频噪声和干扰的电路&#xff0c;以确保传感器输出的信号平滑和稳定。这种滤波器通常用于传感器输出信号的处理&#xff0c;以减少测量中的高频噪声。 一阶RC滤波器通常由一个电阻&#xff08;R…

AM5-DB低压备自投装置在河北冠益荣信科技公司洞庭变电站工程中的应用

叶根胜 安科瑞电气股份有限公司 上海嘉定 201800 摘 要&#xff1a;随着电力需求的增加&#xff0c;电力系统对供电可靠性的要求越来越高&#xff0c;许多供电系统已经有两条或两条以上的供电线路。备用电源自动输入装置可有效提高供电可靠性&#xff0c;工作电源故障断开后可…

三菱FX3U系列—原点回归指令

目录 一、简介 二、指令形式 1、原点指令[ZRN/DZRN] 2、带搜索的原点回归指令[DSZR] 三、回归指令运行过程 1、ZRN原点回归运行过程 2、带搜索的原点回归运行过程 四、特殊辅助继电器 五、特殊输出模块 六、总结 一、简介 用于将电机或伺服驱动器控制的轴回到预定的原…

PHP利用jsonp跨域实现

JSONP&#xff08;JSON with Padding&#xff09;是一种使用普通的<script>标签来发起跨域请求的方法。JSONP利用了HTML页面可以直接引入外部JavaScript文件而不受同源策略限制的特性 实现效果 1、实现代码中php文件 <?php // 接收GET请求参数 $param $_GET[callb…