python爬虫 - 深入requests模块

news2024/10/7 11:43:11

  🌈个人主页:https://blog.csdn.net/2401_86688088?type=blog
🔥 系列专栏:https://blog.csdn.net/2401_86688088/category_12797772.html

目录

​编辑

前言

一、下载网络文件

(一)基本步骤

(二)分段下载大文件

(三)常见问题

二、requests模块处理Cookie

(一)发送带有 Cookies 的请求

(二)从响应中获取 Cookies

(三)Session 对象管理 Cookies

(四)手动设置和修改 Cookies

(五)RequestsCookieJar 转换为字典

(六)字典转换为 RequestsCookieJar

(七)总结

三、重定向与历史请求

(一)重定向的概念

(二)自动重定向

(三)禁止重定向

(四)POST 请求的重定向

(五)重定向链和历史请求

(六)限制重定向次数

(七)总结

四、总结


前言

本文主要介绍了如何使用 Python 的 requests 模块进行网络请求操作,涵盖了从文件下载、Cookie 处理到重定向与历史请求等多个方面。通过详细的示例代码,展示了如何高效地实现各种网络操作,帮助开发者更轻松地进行 HTTP 请求的处理和数据管理。


一、下载网络文件

(一)基本步骤

使用 requests.get() 方法可以发送 HTTP GET 请求,从给定的 URL 下载文件。以下是下载文件的典型步骤:

  1. 发送请求 使用 requests.get() 向文件的 URL 发送请求。

  2. 获取文件内容 响应对象的 content 属性包含文件的二进制数据,可以将其保存到本地文件中。

  3. 保存文件 使用 with open() 创建一个本地文件,将下载的内容写入其中。

示例:

import requests

# 要下载的文件的 URL
url = 'https://example.com/sample.pdf'

# 发送 GET 请求
response = requests.get(url)

# 检查请求是否成功
if response.status_code == 200:
    # 以二进制模式打开一个文件,将文件内容写入本地
    with open('sample.pdf', 'wb') as file:
        file.write(response.content)
    print("文件下载成功")
else:
    print(f"文件下载失败,状态码:{response.status_code}")

(二)分段下载大文件

如果文件比较大,建议使用分段下载方式。通过 iter_content() 方法,可以避免将整个文件一次性加载到内存中,而是逐块处理数据,适合大文件下载。

示例:

import requests

# 要下载的文件的 URL
url = 'https://example.com/largefile.zip'

# 发送 GET 请求,流式获取文件
response = requests.get(url, stream=True)

# 检查请求是否成功
if response.status_code == 200:
    # 以二进制模式打开一个文件,逐块写入数据
    with open('largefile.zip', 'wb') as file:
        for chunk in response.iter_content(chunk_size=1024):
            if chunk:  # 过滤掉保持活动的空数据块
                file.write(chunk)
    print("大文件下载成功")
else:
    print(f"文件下载失败,状态码:{response.status_code}")

(三)常见问题

常见的问题主要有两个:

1. 超时设置:可以使用 timeout 参数来避免请求长时间挂起。例如:

response = requests.get(url, timeout=10)  # 设置10秒超时

2. 错误处理:建议添加异常处理来捕获网络错误。例如:

try:
    response = requests.get(url)
    response.raise_for_status()  # 检查请求是否成功
except requests.exceptions.RequestException as e:
    print(f"请求失败:{e}")

二、requests模块处理Cookie

requests 模块可以轻松地处理 HTTP 请求中的 Cookies,包括发送带有 Cookie 的请求和在响应中获取 Cookie。以下是如何使用 requests 模块处理 Cookies 的一些常见方法和操作示例。

(一)发送带有 Cookies 的请求

在发送请求时,可以通过 cookies 参数向服务器发送 Cookie。这个参数接收一个字典形式的 Cookie 数据,其中键是 Cookie 名称,值是 Cookie 的值。

示例:

import requests

# 定义 Cookies
cookies = {
    'session_id': '123456',
    'user': 'john_doe'
}

# 发送带有 Cookies 的请求
response = requests.get('https://example.com', cookies=cookies)

# 打印响应内容
print(response.text)

在这个示例中,session_id 和 user 是发送给服务器的 Cookie。

(二)从响应中获取 Cookies

服务器在响应中也可以返回 Set-Cookie 头,requests 模块会自动将这些 Cookie 存储在 response.cookies 属性中。

示例:

import requests

# 发送请求
response = requests.get('https://example.com')

# 获取响应中的 Cookies
cookies = response.cookies

# 遍历 Cookies
for cookie in cookies:
    print(f"{cookie.name}: {cookie.value}")

response.cookies 是一个 RequestsCookieJar 对象,类似于字典,可以像访问字典那样访问特定的 Cookie。

(三)Session 对象管理 Cookies

使用 requests.Session() 对象时,Cookies 会自动在不同的请求之间保存和发送。这在处理需要登录认证的情况时非常有用,因为 Session 对象可以自动保持会话的状态。

示例:

import requests

# 创建一个 Session 对象
session = requests.Session()

# 第一次请求,可能会设置 Cookies(例如登录)
response = session.get('https://example.com/login')

# 在后续的请求中,Cookies 会自动发送
response = session.get('https://example.com/dashboard')

# 查看当前 Session 中的 Cookies
print(session.cookies)

在这个示例中,session 对象会自动管理从响应中接收到的 Cookies,并在后续请求中发送它们。这样,可以保持一个会话(如登录后的状态)。

(四)手动设置和修改 Cookies

如果想手动管理 Session 对象的 Cookies,可以通过 session.cookies.set() 方法来设置或修改 Cookies。

示例:

import requests

# 创建一个 Session 对象
session = requests.Session()

# 设置一个新的 Cookie
session.cookies.set('my_cookie', 'cookie_value')

# 发送请求,并自动附带这个 Cookie
response = session.get('https://example.com')

# 打印响应内容
print(response.text)

(五)RequestsCookieJar 转换为字典

response.cookies 返回的是一个 RequestsCookieJar 对象,可以将其转换为一个普通的字典,便于后续处理。

示例:

# 将 Cookies 转换为字典
cookies_dict = requests.utils.dict_from_cookiejar(response.cookies)

print(cookies_dict)

(六)字典转换为 RequestsCookieJar

可以将一个字典转换为 RequestsCookieJar,这样可以方便地管理 Cookie。

示例:

from requests.cookies import cookiejar_from_dict

# 定义 Cookies 字典
cookies_dict = {'session_id': '123456', 'user': 'john_doe'}

# 将字典转换为 RequestsCookieJar
jar = cookiejar_from_dict(cookies_dict)

# 发送请求时使用这个 CookieJar
response = requests.get('https://example.com', cookies=jar)

(七)总结

  • 发送 Cookie: 通过 cookies 参数传递字典。

  • 获取 Cookie: 通过 response.cookies 获取服务器返回的 Cookie。

  • 自动管理 Cookie: 使用 requests.Session() 可以在多个请求间自动管理 Cookie。

  • 手动设置和修改: 通过 session.cookies.set() 手动设置 Cookies。

  • 转换 CookieJar 和字典: requests.utils.dict_from_cookiejar()requests.cookies.cookiejar_from_dict() 方法可以互相转换。


三、重定向与历史请求

重定向 和 历史请求 是常见的网络请求处理需求。requests 模块默认会自动处理 HTTP 重定向,并且提供了查看重定向历史的功能。

(一)重定向的概念

重定向是指服务器告诉客户端当前请求的资源已经移动到另一个 URL,客户端需要访问新的 URL。常见的重定向状态码包括:

  • 301 Moved Permanently: 永久重定向,资源已永久搬迁到新的 URL。

  • 302 Found: 临时重定向,资源临时搬迁,但客户端应继续使用原始 URL。

  • 303 See Other: 告诉客户端请求的资源可以在另一个 URL 处使用 GET 请求获取。

  • 307 Temporary Redirect: 请求资源临时搬迁,客户端应保留请求方法和数据。

  • 308 Permanent Redirect: 类似于 301,但客户端必须使用相同的请求方法。

(二)自动重定向

requests 模块默认会自动处理重定向。如果服务器返回一个 3xx 响应,requests 会跟随 Location 头中的新 URL 进行重定向。你可以通过 response.history 查看重定向链中的所有请求。

示例:

import requests

# 发送一个可能发生重定向的请求
response = requests.get('http://example.com')

# 打印最终响应的 URL
print(f"最终的 URL: {response.url}")

# 检查重定向历史
if response.history:
    print("发生了重定向")
    for resp in response.history:
        print(f"状态码: {resp.status_code}, URL: {resp.url}")
else:
    print("没有发生重定向")

在这个例子中,response.history 是一个包含重定向历史的列表,包含每次重定向的响应对象,最终的响应会保存在 response 中。

(三)禁止重定向

如果不希望自动跟随重定向,可以通过 allow_redirects=False 禁用重定向。在这种情况下,requests 会返回重定向响应,但不会继续跟随。

示例:

import requests

# 禁止自动重定向
response = requests.get('http://example.com', allow_redirects=False)

# 查看响应状态码和重定向的 URL
print(f"状态码: {response.status_code}")
if response.is_redirect or response.status_code in [301, 302, 303, 307, 308]:
    print(f"重定向的 URL: {response.headers['Location']}")

如果服务器返回重定向状态码(如 301 或 302),Location 头部中将包含重定向的新 URL,requests 将返回此信息而不会自动发起新的请求。

(四)POST 请求的重定向

当发送 POST 请求时,如果遇到 302 或 303 重定向,requests 会自动将方法更改为 GET,以符合 HTTP 规范。

示例:

import requests

# 发送一个 POST 请求,并触发重定向
response = requests.post('http://example.com/login', data={'username': 'user', 'password': 'pass'})

# 打印重定向后的请求方法
if response.history:
    print(f"重定向后使用的请求方法: {response.request.method}")

在这种情况下,POST 请求可能会被重定向为 GET 请求。

(五)重定向链和历史请求

可以通过 response.history 来查看每一次重定向的状态码和 URL,以跟踪整个请求链。

示例:

import requests

# 发送一个可能发生多次重定向的请求
response = requests.get('http://example.com')

# 打印重定向链中的每个请求信息
for resp in response.history:
    print(f"状态码: {resp.status_code}, URL: {resp.url}, 请求方法: {resp.request.method}")

(六)限制重定向次数

requests 模块默认允许最多 30 次重定向。如果需要限制重定向次数,可以通过 max_redirects 参数来控制。

示例:

import requests

# 限制最多重定向次数为 5
response = requests.get('http://example.com', max_redirects=5)

# 查看响应状态码
print(f"最终的状态码: {response.status_code}")

如果重定向次数超过了设置的限制,requests 会抛出 TooManyRedirects 异常。

(七)总结

  • 自动重定向: requests 默认会自动处理 3xx 重定向,并可通过 response.history 查看重定向链。

  • 禁止重定向: 使用 allow_redirects=False 禁止自动重定向。

  • POST 请求重定向: 如果遇到 302 或 303 状态码,POST 请求会自动转换为 GET 请求。

  • 历史请求: 通过 response.history 获取每次重定向的状态码、URL 和请求方法,了解请求过程。

  • 限制重定向次数: 可以通过 max_redirects 限制最大重定向次数,防止陷入无限重定向循环。


四、总结

通过 requests 模块,开发者可以轻松实现文件下载、Cookie 自动管理以及处理重定向和历史请求。本文通过清晰的步骤和代码示例,展示了如何处理常见的网络请求需求,并提供了应对大文件下载、请求超时及多次重定向等复杂场景的解决方案,使网络编程变得更加简单和高效。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2194080.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【AIGC】如何选择AI绘画工具?Midjourney VS Stable Diffusion

前言 文章目录 💯如何选择合适的AI绘画工具 个人需求选择比较工具特点社区和资源 💯 Midjourney VS Stable Diffusion:深度对比与剖析 使用费用对比使用便捷性与系统兼容性对比开源与闭源对比图片质量对比上手难易对比学习资源对比作品版权问…

Vue入门-指令学习-v-else和v-else-if

v-else和v-else-if 作用&#xff1a;辅助v-if进行判断渲染 语法&#xff1a;v-else v-else-if"表达式" 注意&#xff1a;需要紧挨着v-if一起使用 <!DOCTYPE html> <html lang"en"><head><meta charset"UTF-8"><m…

九大排序之插入排序

1.前言 插入排序是把待排序的记录按其关键码值的大小逐个插入到一个已经排好序的有序序列中&#xff0c;直到所有的记录插入完为止&#xff0c;得到一个新的有序序列 。实际中我们玩扑克牌时&#xff0c;就用了插入排序的思想。 本章重点&#xff1a;主要着重的介绍两种插入排序…

【JavaEE】【多线程】进程与线程的概念

目录 进程系统管理进程系统操作进程进程控制块PCB关键属性cpu对进程的操作进程调度 线程线程与进程线程资源分配线程调度 线程与进程区别线程简单操作代码创建线程查看线程 进程 进程是操作系统对一个正在运行的程序的一种抽象&#xff0c;可以把进程看做程序的一次运行过程&a…

开发自定义starter

环境&#xff1a;Spring Cloud Gateway 需求&#xff1a;防止用户绕过网关直接访问服务器&#xff0c;用户只需引入依赖即可。 1、创建项目 首先创建一个spring boot项目 2、配置pom.xml <?xml version"1.0" encoding"UTF-8"?> <project xm…

国外电商系统开发-运维系统文件上传

文件上传&#xff0c;是指您把您当前的PC电脑上的文件批量的上传到远程服务器上&#xff0c;在这里&#xff0c;您可以很轻松的通过拖动方式上传&#xff0c;只需要动动鼠标就搞定。 第一步&#xff0c;您应该选择要上传的服务器&#xff1a; 选择好了以后&#xff0c;点击【确…

SpringBoot框架下的教育系统开发全解析

1系统概述 1.1 研究背景 随着计算机技术的发展以及计算机网络的逐渐普及&#xff0c;互联网成为人们查找信息的重要场所&#xff0c;二十一世纪是信息的时代&#xff0c;所以信息的管理显得特别重要。因此&#xff0c;使用计算机来管理微服务在线教育系统的相关信息成为必然。开…

毕业设计项目——基于transformer的中文医疗领域命名实体识别(论文/代码)

完整的论文代码见文章末尾 以下为核心内容 摘要 近年来&#xff0c;随着深度学习技术的发展&#xff0c;基于Transformer和BERT的模型在自然语言处理领域取得了显著进展。在中文医疗领域&#xff0c;命名实体识别(Named Entity Recognition, NER)是一项重要任务&#xff0c;旨…

ArkUI中的状态管理

一、MVVM ArkUI提供了一系列装饰器实现ViewModel的能力,如@Prop、@Link、@Provide、LocalStorage等。当自定义组件内变量被装饰器装饰时变为状态变量,状态变量的改变会引起UI的渲染刷新。 在ArkUI的开发过程中,如果没有选择合适的装饰器或合理的控制状态更新范围,可能会导…

《大规模语言模型从理论到实践》第一轮学习笔记

第一章 绪论 本章主要介绍大规模语言模型基本概念、发展历程和构建流程。 大规模语言模型&#xff08;Large Language Models&#xff0c;LLM&#xff09;&#xff0c;也称大语言模型 或大型语言模型。 1.1 大规模语言模型基本概念 1.语言模型&#xff08;Language Model&a…

重学SpringBoot3-集成Redis(五)之布隆过滤器

更多SpringBoot3内容请关注我的专栏&#xff1a;《SpringBoot3》 期待您的点赞&#x1f44d;收藏⭐评论✍ 重学SpringBoot3-集成Redis&#xff08;五&#xff09;之布隆过滤器 1. 什么是布隆过滤器&#xff1f;基本概念适用场景 2. 使用 Redis 实现布隆过滤器项目依赖Redis 配置…

Spring开发最佳实践之跨域处理

1. 跨域处理 1.1 异常现象 1.2 异常原因分析 跨源资源共享的官方定义如下&#xff1a; 跨源资源共享&#xff08;CORS&#xff0c;Cross Origin Resource Sharing。或通俗地译为跨域资源共享&#xff09;是一种基于 HTTP 头的机制&#xff0c;该机制通过允许服务器标示除了它自…

上海理工大学《2023年+2019年867自动控制原理真题》 (完整版)

本文内容&#xff0c;全部选自自动化考研联盟的&#xff1a;《上海理工大学867自控考研资料》的真题篇。后续会持续更新更多学校&#xff0c;更多年份的真题&#xff0c;记得关注哦~ 目录 2023年真题 2019年真题 Part1&#xff1a;2023年2019年完整版真题 2023年真题 2019年…

Java使用线程池创建线程

一、线程前言 首先我们知道&#xff0c;线程的概念如果不知道可以去看这一篇Java中的线程&#xff0c;我们这篇主要讲述的是Java怎么使用线程池创建线程&#xff0c;首先我们要对线程池有点概念&#xff0c;其实顾名思义&#xff0c;线程池就是有喝多线程的一个池子类似于&…

一书讲透LLM大语言模型,《掌握大型语言模型》,看完我都懵了!

《掌握大型语言模型》 &#xff08;Mastering Large Language Models&#xff09;由Sanket Subhash Khandare撰写&#xff0c;是一本关于大型语言模型&#xff08;LLMs&#xff09;的高级技术、应用、前沿方法和顶尖模型的指南。 这本大模型书已经上传CSDN&#xff0c;朋友们如…

《Windows PE》4.2 绑定导入表

绑定导入表&#xff08;Bound Import Table&#xff09;是文件中的一个数据结构&#xff0c;用于存储已经绑定&#xff08;即完成绑定导入&#xff09;的外部函数的信息。 本节必须掌握的知识点&#xff1a; 绑定导入表数据结构 实例分析 4.2.1 绑定导入表数据结构 绑定导入…

【AIGC】ChatGPT是如何思考的:探索CoT思维链技术的奥秘

博客主页&#xff1a; [小ᶻZ࿆] 本文专栏: AIGC | ChatGPT 文章目录 &#x1f4af;前言&#x1f4af;什么是CoT思维链CoT思维链的背景与技术发展需求 &#x1f4af;CoT思维链的工作原理&#x1f4af;CoT思维链的应用领域&#x1f4af;CoT思维链的优势&#x1f4af;CoT思维…

动态内存管理笔试题

目录 1.第一题1.1如何修改 2.第二题2.1题想2.2深刻理解 3.第三题4.第四题 1.第一题 void GetMemory(char* p) {p (char*)malloc(100); } void Test(void) {char* str NULL;GetMemory(str);strcpy(str, "hello world");printf(str); }请问运⾏Test 函数会有什么样的…

解锁数字化营销成功密码

在趋势部分&#xff0c;列举了移动优先、社交媒体主导、个性化营销、视频营销崛起和数据驱动决策等方面&#xff0c;让读者快速了解数字化营销的发展方向。策略部分强调了明确目标受众、制定整合营销策略、优化用户体验、重视内容营销和社交媒体营销以及利用搜索引擎优化和数据…

jQuery——平滑翻页

平滑翻页 param next true&#xff1a;下一页 false&#xff1a;下一页 本文分享到此结束&#xff0c;欢迎大家评论区相互讨论学习&#xff0c;下一篇继续分享jQuery中循环翻页的学习。