【网络爬虫】(2) requests模块,案例:网络图片爬取,附Python代码

news2024/9/20 14:33:22

1. 基本原理

1.1 requests 模块

requests 是 Python 中一个非常流行的 HTTP 客户端库,用于发送所有的 HTTP 请求类型。它基于 urllib,但比 urllib 更易用。

中文文档地址:Requests: 让 HTTP 服务人类 — Requests 2.18.1 文档

(1)requests.get(url, **kwargs)

requests.get() 函数是 requests 库中用于发送 HTTP GET 请求的主要函数GET 请求通常用于从服务器请求数据,而不发送任何数据到服务器(尽管可以通过查询参数发送少量数据)。下面我将介绍 requests.get 函数的参数、用法,并给出一个简短的例子。

参数:

url (str): 请求的 URL。这是 requests.get 必须的参数,想要请求的网页或资源的地址

params (dict, optional): 一个字典或字节序列,作为查询参数增加到 url 中。例如,params={'key1': 'value1', 'key2': 'value2'} 将会以 key1=value1&key2=value2 的形式附加到 URL 上。

headers (dict, optional): 自定义 HTTP 头。例如,可以通过 headers={'User-Agent': 'my-app/0.0.1'} 来设置用户代理。

cookies (dict, optional): 字典或 CookieJar,包含要发送的 cookie。

timeout (float or tuple, optional): 以秒为单位的请求超时时间。可以是单个浮点数(连接超时和读取超时相同),或者是一个元组,分别指定连接超时和读取超时。

allow_redirects (bool, optional): 是否允许重定向。默认为 True。

proxies (dict, optional): 字典映射协议或协议和主机名到 URL。

verify (bool or str, optional): 是否验证 SSL 证书。默认为 True。可以提供一个 CA_BUNDLE 文件的路径。

stream (bool, optional): 是否立即下载响应内容。默认为 False。如果想逐渐下载大型响应,可以设置为 True。

返回值:

requests.get 函数返回一个 Response 对象该对象包含服务器响应的所有信息,如状态码、响应头、响应体等。

例子:
import requests  
  
# 定义请求的 URL  
url = 'http://www.umeituku.com/bizhitupian/fengjingbizhi/'  
  
# 发送 GET 请求  
response = requests.get(url)  
  
# 检查请求是否成功  
if response.status_code == 200:  
    # 读取响应内容  
    data = response.text  
    print("请求成功,响应内容为:")  
    print(data)  
else:  
    # 请求失败,打印错误信息  
    print(f"请求失败,状态码:{response.status_code}")  
    print(response.text)  
  
# 你也可以直接使用 response.json() 方法解析 JSON 响应  
if response.headers.get('content-type') == 'application/json':  
    data = response.json()  
    print("解析 JSON 响应成功:")  
    print(data)

(2)requests.post(url, data=None, json=None, **kwargs)

requests.post() 函数是 requests 库中用于发送 HTTP POST 请求的函数POST 请求通常用于向服务器提交数据,例如提交表单或上传文件与 GET 请求不同,POST 请求会将数据包含在请求体中发送给服务器。下面我将详细介绍 requests.post 函数的参数、用法,并给出一个简短的例子。

参数:

url (str): 请求的 URL。这是 requests.post 函数必须的参数,代表你想要发送 POST 请求的网页或资源的地址。

data (dict, bytes, or file-like object, optional): 要发送的表单数据。如果是字典,它将被转换为表单编码格式。

json (dict, optional): 要发送的 JSON 数据。如果提供此参数,content-type 头将自动设置为 application/json。

headers (dict, optional): 自定义 HTTP 头。

cookies (dict, optional): 字典或 CookieJar,包含要发送的 cookie。

files (dict, optional): 要上传的文件。字典中的键是表单字段名,值是文件元组 (filename, fileobj, content_type, content_encoding)。

auth (tuple, optional): 用于身份验证的元组,如 ('user', 'pass')。

timeout (float or tuple, optional): 以秒为单位的请求超时时间。

proxies (dict, optional): 字典映射协议或协议和主机名到 URL。

verify (bool or str, optional): 是否验证 SSL 证书。

stream (bool, optional): 是否立即下载响应内容。

cert (tuple, optional): 客户端证书和其密钥的元组。

返回值:

requests.post 函数返回一个 Response 对象与 requests.get 函数的返回值类似,该对象包含服务器响应的所有信息,如状态码、响应头、响应体等

例子:
import requests  
  
# 定义请求的 URL  
url = 'http://www.umeituku.com/bizhitupian/fengjingbizhi/'  
  
# 准备要发送的数据  
data = {  
    'username': 'my_username',  
    'password': 'my_password'  
}  
  
# 发送 POST 请求  
response = requests.post(url, data=data)  
  
# 检查请求是否成功  
if response.status_code == 200:  
    # 读取响应内容  
    print("登录成功,响应内容为:")  
    print(response.text)  
else:  
    # 请求失败,打印错误信息  
    print(f"登录失败,状态码:{response.status_code}")  
    print(response.text)

(2)requests.put(url, data=None, **kwargs)

requests.put() 函数requests 库中用于发送 HTTP PUT 请求的函数PUT 请求通常用于更新服务器上的资源与 POST 请求不同,PUT 请求的意图是替换服务器上指定资源的内容。下面我将详细介绍 requests.put 函数的参数、用法,并给出一个简短的例子。

参数:

url (str): 请求的 URL。这是 requests.put 函数必须的参数,代表你想要发送 PUT 请求的资源的地址。

data (dict, bytes, or file-like object, optional): 要发送的数据。如果是字典,它将被转换为表单编码格式。这通常用于更新资源的内容。

json (dict, optional): 要发送的 JSON 数据。如果提供此参数,content-type 头将自动设置为 application/json。

headers (dict, optional): 自定义 HTTP 头。

cookies (dict, optional): 字典或 CookieJar,包含要发送的 cookie。

auth (tuple, optional): 用于身份验证的元组,如 ('user', 'pass')。

timeout (float or tuple, optional): 以秒为单位的请求超时时间。

proxies (dict, optional): 字典映射协议或协议和主机名到 URL。

verify (bool or str, optional): 是否验证 SSL 证书。

stream (bool, optional): 是否立即下载响应内容。

cert (tuple, optional): 客户端证书和其密钥的元组。

返回值:

requests.put 函数返回一个 Response 对象与 requests.get 和 requests.post 函数的返回值类似。这个对象包含了服务器的响应信息,比如状态码、响应头、响应体等

例子:
import requests  
import json  
  
# 定义请求的 URL  
url = 'http://www.umeituku.com/bizhitupian/fengjingbizhi/'  
  
# 准备要更新的数据  
data = {  
    'name': 'Updated Name',  
    'description': 'This resource has been updated.'  
}  
  
# 将数据转换为 JSON 格式  
data_json = json.dumps(data)  
  
# 发送 PUT 请求  
response = requests.put(url, data=data_json, headers={'Content-Type': 'application/json'})  
  
# 检查请求是否成功  
if response.status_code == 200:  
    # 读取响应内容  
    print("资源更新成功,响应内容为:")  
    print(response.text)  
else:  
    # 请求失败,打印错误信息  
    print(f"资源更新失败,状态码:{response.status_code}")  
    print(response.text)

2. 图片爬取案例

2.1 案例介绍

这个案例通过发送HTTP请求、解析HTML页面、提取图片链接、下载图片并保存到本地等步骤,实现从指定网页爬取图片的功能。

案例使用的爬取网址:http://www.umeituku.com/bizhitupian/fengjingbizhi/

2.2 Python代码

代码如下:

import requests  # 发送请求,从服务器获取数据
from bs4 import BeautifulSoup  # 解析页面的源代码
n = 1  # 保存图片的计数器

# 发送请求到服务器
url = 'http://www.umeituku.com/bizhitupian/fengjingbizhi/'  # 图片网站地址
resp = requests.get(url)  # 从服务器拿到网址, 返回响应
resp.encoding = 'utf-8'  # 重新编码utf-8
# 解析html--返回页面
main_page = BeautifulSoup(resp.text, 'html.parser')
# 在页面中找标签'div'的TypeList属性
typelist = main_page.find('div', attrs={'class':'TypeList'})
alst = typelist.find_all('a', attrs={'class':'TypeBigPics'})  # 所有的图片链接
# 从标签中获取每张图片的链接
for a in alst:
    href = a.get('href') # 发送请求到子页面,进入图片页面
    resp1 = requests.get(href) # 从服务器拿到网址
    resp1.encoding = 'utf-8'  # 重新编码utf-8
    child_page = BeautifulSoup(resp1.text, 'html.parser')  # 源代码解析,获取子页面
    # 获取所有图片路径
    src_att = child_page.find('div', attrs={'class':'ImageBody'})  # 找到子页面中图片属性
    src = src_att.find('img').get('src')  # 子页面中找到src图片路径
    # 创建文件
    f = open('tu%s.jpg'%n, mode='wb')  # 写入文件,内容是非文本文件,保存的文件名
    # 发送请求到服务器,把图片保存到本地
    f.write(requests.get(src).content)
    print('完成一次')
    n += 1  # 图片计数器

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1544644.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

centos 虚拟机 增加硬盘 虚拟机centos磁盘扩容

2 在centos 7 系统中挂载磁盘 2.1 查看磁盘信息 进入centos 7系统中,输入“# df -h”命令,查看磁盘信息。 这里没有写显示新增的磁盘信息。 2.2 对新加的磁盘进行分区操作 2.2.1 查看磁盘容量和分区 2.2.2 创建分区 a. 选择新增的磁盘(这…

游戏本续航@控制中心的省电模式效果如何

文章目录 节能模式长续航模式👺相关工具 节能模式长续航模式👺 蓝天模具Control Center中的模式 根据我的试验,以及软件的提示,可以发现 Power Saving是最省电的,儿Quiet模式并不省电,它会启用独立显卡,只不过风扇的转速不像娱乐模式和性能模式那么积极而…

前端删除列表数据后页码重置逻辑

问题描述 需要调整页码的例子: 列表一共有10页数据,用户把第10页数据全部删除后,需要把数据重置成上一页,也就是第9页 不用调整页码的例子: 列表一共有1页数据,用户把本页数据全部删除后,页码…

代码随想录day30(2)回溯:组合(leetcode77)

题目要求:给定两个整数 n 和 k,返回 1 ... n 中所有可能的 k 个数的组合。 思路:首先定义两个变量,一个存放符合条件的单一结果,另一个存放符合条件结果的集合,for循环用来横向遍历,递归用来纵…

Mac电脑虚拟显示器:BetterDisplay Pro for Mac v2.0.11激活版

BetterDisplay Pro是一款由waydabber开发的Mac平台上的显示器校准软件,可以帮助用户调整显示器的颜色和亮度,以获得更加真实、清晰和舒适的视觉体验。 软件下载:BetterDisplay Pro for Mac v2.0.11激活版 以下是BetterDisplay Pro的主要特点&…

8.软件工程

整个章节偏向于记忆、背诵; 主要议题: 软件体系:3层; UML重点,重点记3要素中的关系、图; 1.软件体系结构 分层 优点:利于软件的重复利用; 缺点:以什么方式分层&#…

2024 Python3.10 系统入门+进阶(三):Python变量类型和运算符

目录 一、Python变量的定义和使用二、Python整数类型(int)详解三、Python小数/浮点数(float)类型详解四、Python复数类型(complex)详解---了解五、Python字符串详解(包含长字符串和原始字符串)5.1 处理字符串中的引号5.2 字符串的…

【Linux系统】冯诺依曼与操作系统

什么是冯诺依曼体系结构? 如图即为冯诺依曼大致的体系结构图, 我们知道这些都是由我们的计算机硬件组成 输入设备:键盘, 鼠标, 摄像头, 话筒, 磁盘, 网卡... 输出设备&#xff1a…

[HGAME 2023 week2]Designer

[HGAME 2023 week2]Designer 考点:XSS跨站脚本攻击,模板注入 代码审计 function auth(req, res, next) {const token req.headers["authorization"]if (!token) {return res.redirect("/")}try {const decoded jwt.verify(token,…

你在测试金字塔的哪一层(下)

​在《你在测试金字塔的哪一层(上)》中介绍了自动化测试的重要性以及测试金字塔。测试金字塔分为单元测试、服务测试、UI测试,它们分别是什么呢?本期文章让我们一起详细看看测试金字塔的不同层次。 一、单元测试 单元测试是指对程…

蓝桥杯练习07小兔子爬楼梯

小兔子爬楼梯 介绍 小兔子想去月球上旅行,假设小兔子拥有一个阶梯子,当你爬完层就可以到达月球,小兔子每次可以跳1或者2个台阶,小兔子有多少种跳法可以到达月球呢? 给定n是一个正整数,代表梯子的阶数&…

apisix创建https

总结了下apisix 使用https 的问题和方法 1、apisix 默认https 端口是9443 2、apisix 需要上传证书后才可以使用https 否二curl测试会报错 SSL routines:CONNECT_CR_SRVR_HELLO 3、apisix 上传证书方法 我是使用的自签名证书,注意自签名证书的Common Name 要写你…

【教程】高效数据加密混淆方法及实现简介

背景 在需要对数据进行传输或者表达时,通常要求数据加密的安全级别不高,但希望加解密时间复杂度尽可能低。这时使用传统的对称加密(如3DES、AES)或非对称加密(如RSA、ECC)显然不太适合。因为加密的安全级别…

基于深度学习的海洋鱼类识别算法matlab仿真

目录 1.算法运行效果图预览 2.算法运行软件版本 3.部分核心程序 4.算法理论概述 5.算法完整程序工程 1.算法运行效果图预览 2.算法运行软件版本 MATLAB2022a 3.部分核心程序 ............................................................ % 对测试集进行分类预测 [Pr…

深入理解 TreeMap

咦咦咦,各位小可爱,我是你们的好伙伴——bug菌,今天又来给大家普及Java SE相关知识点了,别躲起来啊,听我讲干货还不快点赞,赞多了我就有动力讲得更嗨啦!所以呀,养成先点赞后阅读的好…

厨余垃圾处理设备工业监控PLC连接APP小程序智能软硬件开发之功能结构篇

厨余垃圾处理设备工业监控PLC连接APP小程序智能软硬件开发之功能结构篇 好几年前,应朋友之邀,为其工厂的厨余垃圾处理设备研发一套用于对现场的生产及维护进行远程查看、管理和质量监控的厨余垃圾处理设备工业监控PLC连接APP小程序智能软硬件系统。 因为…

STM32之HAL开发——Keil调试工具介绍

Debug介绍 在Keil工具中有许多常用的小工具,下面将会依次为大家介绍每个工具的用途。 命令行窗口 在窗口内可以输入一些指令,来进行断点设置以及删除,一般不常用 反汇编窗口 可以查看当前C代码的汇编指令 标志窗口 寄存器窗口 可以用来查看C…

【Linux】信号量与信号

目录 先导知识 信号量 信号 信号概念及产生信号的一般方式 进程递达、阻塞和捕捉 信号集操作函数 信号的捕捉 可重入函数 先导知识 信号量与信号没有任何关系,它们是两个完全不同的概念! 操作系统的本质,就是一个死循环;…

Cookie在网络爬虫中的重要作用

在互联网的海量数据中,网络爬虫如同一只勤劳的小蜜蜂,不断采集着网页上的信息。而在这过程中,Cookie扮演了不可或缺的角色,它就像是爬虫手中的“通行证”,帮助其顺利获取所需数据。本文将深入探讨Cookie在网络爬虫中的…

LLM2LLM: Boosting LLMs with Novel Iterative Data Enhancement

LLM2LLM: Boosting LLMs with Novel Iterative Data Enhancement 相关链接:arXiv GitHub 关键字:LLM、Data Augmentation、Fine-tuning、NLP、Low-data Regime 摘要 预训练的大型语言模型(LLMs)目前是解决绝大多数自然语言处理任…