python爬虫-----深入了解 requests 库(第二十五天)

news2025/1/13 15:48:53

🎈🎈作者主页: 喔的嘛呀🎈🎈
🎈🎈所属专栏:python爬虫学习🎈🎈
✨✨谢谢大家捧场,祝屏幕前的小伙伴们每天都有好运相伴左右,一定要天天开心哦!✨✨ 

 

 

目录

一、发送请求

二、处理响应

三、请求头和响应头

四、状态码和异常处理

五、cookie

六、会话管理

七、重定向和代理


在学习 Python 爬虫的第二十五天,你将进一步深入了解 requests 库,这是一个在爬虫开发中非常重要的工具。requests 库提供了简单而强大的接口,使得发送 HTTP 请求和处理响应变得十分容易。在这一阶段,我们会学习到如何更有效地使用 requests 库,处理复杂的请求和响应,以及处理各种网络情况下的异常。

我总结了十四个知识点,今天我们先来看前七个。

一、发送请求

发送请求是使用 requests 库中的 getpost 方法来实现的。这两种方法分别用于发送 GET 和 POST 请求。下面是它们的基本用法:

  1. 发送 GET 请求 使用 requests.get 方法可以发送一个 GET 请求到指定的 URL。示例代码如下:

    import reques
    url = '<http://example.com/api>'
    response = requests.get(url)
    
    print(response.text)
    
    

    在这个例子中,我们向 http://example.com/api 发送了一个 GET 请求,并将响应的内容打印出来。

  2. 发送带参数的 GET 请求 如果需要在 URL 中传递参数,可以将参数作为一个字典传递给 params 参数。示例代码如下:

    
    import requests
    
    url = '<http://example.com/api>'
    params = {'key1': 'value1', 'key2': 'value2'}
    response = requests.get(url, params=params)
    
    print(response.text)
    
    

    这里我们传递了一个字典作为参数,并在 URL 中生成了类似 http://example.com/api?key1=value1&key2=value2 的 URL。

  3. 发送 POST 请求 使用 requests.post 方法可以发送一个 POST 请求到指定的 URL。示例代码如下:

    
    import requests
    
    url = '<http://example.com/api>'
    data = {'key1': 'value1', 'key2': 'value2'}
    response = requests.post(url, data=data)
    
    print(response.text)
    
    

    在这个例子中,我们向 http://example.com/api 发送了一个 POST 请求,并将响应的内容打印出来。

  4. 发送带 JSON 数据的 POST 请求 如果需要发送 JSON 数据,可以使用 json 参数。示例代码如下:

    
    import requests
    
    url = '<http://example.com/api>'
    data = {'key1': 'value1', 'key2': 'value2'}
    response = requests.post(url, json=data)
    
    print(response.text)
    
    

    这里我们使用 json=data 将字典数据转换为 JSON 格式,并发送到服务器。

以上是使用 requests 库发送 GET 和 POST 请求的基本用法。根据具体的需求,可以通过设置更多的参数来定制请求,如请求头、超时时间等。

二、处理响应

处理 requests 库发送请求后的响应是非常重要的,可以通过响应对象获取到许多有用的信息。以下是一些常见的处理响应的方法和属性:

  1. 获取响应内容
    • response.text:以文本形式获取响应内容。
    • response.content:以字节形式获取响应内容。
    • response.json():将响应内容解析为 JSON 格式。
  2. 获取响应状态码
    • response.status_code:获取响应的 HTTP 状态码。
  3. 获取响应头信息
    • response.headers:获取响应头的字典形式。
  4. 处理异常
    • response.raise_for_status():如果响应状态码不是 200,会抛出一个 HTTPError 异常。
  5. 获取请求信息
    • response.request.url:获取请求的 URL。
    • response.request.headers:获取请求的头信息。
  6. 其他
    • response.elapsed:获取请求响应时间。
    • response.history:获取重定向历史。

下面是一个示例,演示了如何发送请求并处理响应:


import requests

url = '<http://example.com/api>'
response = requests.get(url)

# 获取响应内容
print(response.text)

# 获取响应状态码
print(response.status_code)

# 获取响应头信息
print(response.headers)

# 检查是否有异常
response.raise_for_status()

# 获取请求的 URL 和头信息
print(response.request.url)
print(response.request.headers)

通过这些方法和属性,我们可以更好地处理 requests 库发送请求后的响应,从而更有效地编写爬虫程序。

三、请求头和响应头

在使用 requests 库发送请求和处理响应时,请求头和响应头都是非常重要的信息。请求头包含了发送请求的一些元数据,如用户代理、接受的内容类型等。而响应头包含了服务器返回的一些元数据,如内容类型、服务器信息等。以下是如何使用 requests 库获取请求头和响应头的示例:

  1. 获取请求头信息

import requests

url = '<http://example.com/api>'
headers = {
    'User-Agent': 'My User Agent',
    'Accept': 'application/json'
}
response = requests.get(url, headers=headers)

# 获取请求头信息
request_headers = response.request.headers
print("请求头信息:")
for key, value in request_headers.items():
    print(f"{key}: {value}")

  1. 获取响应头信息

import requests

url = '<http://example.com/api>'
response = requests.get(url)

# 获取响应头信息
response_headers = response.headers
print("响应头信息:")
for key, value in response_headers.items():
    print(f"{key}: {value}")

通过这些方法,我们可以获取到请求头和响应头的详细信息,有助于了解请求和响应的具体情况,并在需要时进行调试和分析。

四、状态码和异常处理

在使用 requests 库发送网络请求时,了解状态码和异常处理是非常重要的。状态码表示服务器对请求的处理结果,常见的状态码有:

  • 200:请求成功。
  • 404:请求的资源未找到。
  • 500:服务器内部错误。

异常处理可以帮助我们处理在发送请求时可能出现的各种异常情况,如网络连接问题、超时等。以下是如何获取状态码和处理异常的示例:

  1. 获取状态码

import requests

url = '<http://example.com/api>'
response = requests.get(url)

# 获取响应状态码
status_code = response.status_code
print(f"响应状态码:{status_code}")

if status_code == 200:
    print("请求成功")
elif status_code == 404:
    print("请求的资源未找到")
elif status_code == 500:
    print("服务器内部错误")
# 其他状态码的处理...

  1. 异常处理

import requests
from requests.exceptions import HTTPError, ConnectionError, Timeout

url = '<http://example.com/api>'
try:
    response = requests.get(url)
    response.raise_for_status()  # 检查响应状态码
except HTTPError as http_err:
    print(f'HTTP error occurred: {http_err}')
except ConnectionError as conn_err:
    print(f'Connection error occurred: {conn_err}')
except Timeout as timeout_err:
    print(f'Request timed out: {timeout_err}')
except Exception as err:
    print(f'Other error occurred: {err}')

通过这些方法,我们可以获取到状态码并根据不同的状态码或异常类型进行相应的处理,确保你的程序在遇到异常情况时能够做出正确的响应。

五、cookie

在网络通信中,Cookie 是服务器发送到浏览器并保存在本地的一小段数据,用于跟踪用户的会话信息、存储用户偏好等。在使用 requests 库发送请求时,可以使用 Cookies 来维持会话状态或者传递身份验证信息。以下是如何在 requests 中使用 Cookies 的示例:

  1. 发送带有 Cookies 的请求

import requests

# 定义要发送的 Cookies
cookies = {'cookie1': 'value1', 'cookie2': 'value2'}

# 发送带有 Cookies 的请求
response = requests.get('<http://example.com/api>', cookies=cookies)

# 处理响应
print(response.text)

  1. 获取响应中的 Cookies

import requests

response = requests.get('<http://example.com/api>')

# 获取响应中的 Cookies
response_cookies = response.cookies
for cookie in response_cookies:
    print(f"Cookie Name: {cookie.name}, Value: {cookie.value}")

通过这些方法,我们可以在 requests 中使用 Cookies 来发送请求和处理响应,实现对会话状态的维持和管理。

六、会话管理

在使用 requests 库发送多个相关请求时,为了保持会话状态(如保持登录状态、传递身份验证信息等),可以使用会话对象 requests.Session()。会话对象可以在多个请求之间保持会话状态,并且可以使用同一个会话对象发送多个请求,从而避免重复设置相同的参数。以下是如何使用会话对象管理会话状态的示例:

(1)创建会话对象


import requests

# 创建会话对象
session = requests.Session()

(2)发送请求


# 使用会话对象发送请求
response1 = session.get('<http://example.com/login>', params={'username': 'user', 'password': 'pass'})
response2 = session.get('<http://example.com/profile>')

(3)处理响应


# 处理响应
print(response1.text)
print(response2.text)

通过这种方式,我们可以使用同一个会话对象发送多个请求,会话对象会自动处理 Cookies,并且保持会话状态,从而实现对会话状态的管理。

七、重定向和代理

在使用 requests 库发送网络请求时,可能会遇到重定向和代理的情况。重定向是指服务器返回一个重定向响应,告诉客户端应该重定向到另一个 URL。代理是指通过代理服务器发送请求,使得请求看起来像是从代理服务器发出的,而不是直接从客户端发出的。以下是如何处理重定向和使用代理的示例:

  1. 重定向处理

import requests

# 发送请求,allow_redirects 参数控制是否允许重定向,默认为 True
response = requests.get('<http://example.com>', allow_redirects=True)

# 获取重定向历史
for redirect in response.history:
    print(f"Redirected to: {redirect.url}")

# 获取最终响应的 URL 和内容
print(f"Final URL: {response.url}")
print(response.text)

  1. 使用代理

import requests

# 设置代理服务器
proxies = {
    'http': '<http://proxy.example.com>',
    'https': '<https://proxy.example.com>'
}

# 发送请求时指定代理
response = requests.get('<http://example.com>', proxies=proxies)

# 处理响应
print(response.text)

通过这些方法,我们可以处理重定向并使用代理发送请求,从而实现更灵活的请求发送和响应处理。

在第二十五天的学习中,我们深入探讨了 Python 网络爬虫的关键概念和技术。我们学习了如何发送请求并处理响应,了解了请求头和响应头的重要性,以及如何处理不同的状态码和异常情况。我们还学习了如何使用 Cookie 来管理会话状态,以及如何处理重定向和使用代理。

这些知识对于编写高效、稳定的网络爬虫至关重要。通过不断练习和探索,我们可以不断提升自己的爬虫技能,从而更好地应对各种复杂的网络数据抓取任务。

在接下来的学习中,我们将继续深入探讨网络爬虫的更多高级主题,为构建强大的爬虫系统打下坚实的基础。让我们继续努力学习,探索更多有趣的内容!

好啦,今天的学习就到这里了。小伙伴们,拜拜啦!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1609186.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

C#控制台相关方法

控制台相关方法 文章目录 控制台输入1、清空2、设置控制台3、设置光标位置&#xff0c;1y 2x4、设置颜色相关5、光标显隐6、关闭控制台思考 移动方块 控制台输入 //如果ReadKey(true)不会把输入的内容显示再控制台上 char c Console.ReadKey(true).KeyChar;1、清空 ​ Cons…

Golang | Leetcode Golang题解之第40题组合总和II

题目&#xff1a; 题解&#xff1a; func combinationSum2(candidates []int, target int) (ans [][]int) {sort.Ints(candidates)var freq [][2]intfor _, num : range candidates {if freq nil || num ! freq[len(freq)-1][0] {freq append(freq, [2]int{num, 1})} else {…

免费高效无广告!开源的跨平台文件下载器:FileCentipede

FileCentipede&#xff1a;高速、全能、零广告的开源跨平台下载神器&#xff0c;汇聚多种协议&#xff0c;为您带来前所未有的免费下载体验&#xff01;- 精选真开源&#xff0c;释放新价值。 概览 在这个数字数据几乎构成一切的时代&#xff0c;从最终用户的角度来看&#xf…

2.4 Web容器配置:Tomcat

2.4 Web容器配置 2.4.1Tomcat配置1.常规配置2. HTTPS配置 *********** 2.4.1Tomcat配置 1.常规配置 在SpringBoot项目中&#xff0c;可以内置Tomcat、Jetly、Undertow、Netty等容器。 当开发者添加了spring-boot-starter-web依赖之后&#xff0c;默认会使用Tomcat作为Web容器…

微软 SDL 安全研发生命周期详解

微软SDL&#xff08;Security Development Lifecycle&#xff09;是一种安全软件开发的方法论&#xff0c;它强调在整个产品开发过程中融入安全考虑因素。SDL 是一个动态的过程&#xff0c;包括多个阶段和活动&#xff0c;以确保产品的安全开发、测试、部署和运行。Microsoft 要…

深入理解数据结构第五弹——排序(2)——快速排序

排序&#xff08;1&#xff09;&#xff1a;深入了解数据结构第四弹——排序&#xff08;1&#xff09;——插入排序和希尔排序-CSDN博客 前言&#xff1a; 在前面我们已经讲过了几种排序方式&#xff0c;他们的效率有快有慢&#xff0c;今天我们来学习一种非常高效的排序方式…

小程序AI智能名片S2B2C商城系统:做内容、造IP、玩社群打造私域流量的新营销秘籍

在数字化浪潮汹涌的新时代&#xff0c;小程序AI智能名片S2B2C商城系统正以其独特的魅力&#xff0c;引领着营销领域的新变革。这套系统不仅将人工智能与小程序技术完美结合&#xff0c;更通过创新的S2B2C模式&#xff0c;为企业打开了一扇通往成功的大门。 面对激烈的市场竞争&…

【uniapp】 合成海报组件

之前公司的同事写过一个微信小程序用的 合成海报的组件 非常十分好用 最近的项目是uni的 把组件改造一下也可以用 记录一下 <template><view><canvas type"2d" class"_mycanvas" id"my-canvas" canvas-id"my-canvas" …

设计模式——访问者模式22

访问者模式能将算法与其所作用的对象隔离开来&#xff0c;分离数据结构与访问数据操作。例如 不同访问者 对不同 文件类型&#xff08;要素&#xff09;的操作权限不同。 设计模式&#xff0c;一定要敲代码理解 元素抽象&#xff08;被访问的元素&#xff09; accept 方法实…

【数据结构】单链表的头节点与尾节点

&#x1f388;个人主页&#xff1a;豌豆射手^ &#x1f389;欢迎 &#x1f44d;点赞✍评论⭐收藏 &#x1f917;收录专栏&#xff1a;数据结构 &#x1f91d;希望本文对您有所裨益&#xff0c;如有不足之处&#xff0c;欢迎在评论区提出指正&#xff0c;让我们共同学习、交流进…

Appian发布最新版本:通过AI流程自动化推动业务发展

Appian公司于2024年4月16日在弗吉尼亚州麦克莱恩宣布推出Appian平台的最新版本。此版本引入了Process HQ&#xff0c;这是一个集流程挖掘和企业AI于一体的系统&#xff0c;结合了Appian的数据平台。Process HQ为企业运营提供前所未有的可见性&#xff0c;支持数据驱动的决策和流…

nas如何异地共享文件?

nas异地共享文件是一种通过网络实现不同地区电脑与电脑、设备与设备、电脑与设备之间的文件共享的技术。通过nas&#xff08;网络附加存储&#xff09;设备&#xff0c;用户可以在不同地点的电脑或设备之间快速、安全地共享文件和数据。本文将介绍nas异地共享文件的原理以及它在…

宝塔面板使用docker+nginx+gunicorn部署Django项目实战教程

第一步&#xff1a;创建Django项目 使用pip install django安装创建django项目的依赖在电脑某个根目录下执行django-admin startproject app创建一个名为app的Django项目。目录结构如下: ├── app │ ├── init.py │ ├── asgi.py │ ├── settings.py │ ├── url…

SQL注入作业

目录 一、万能密码和二阶注入测试 1.万能密码 2.二阶注入测试 二、联合查询注入测试 1.判断注入点 2.判断当前查询语句的列数 3.查询数据库基本信息 4.查询数据库中的数据 三、报错注入 1. 报错注入函数EXTRATVALUE 2.UPDATEXML 四、盲注测试 1.布尔盲注 判断数据…

【学习】软件压力测试对软件产品的作用

在信息化高速发展的今天&#xff0c;软件产品已经成为各行各业不可或缺的一部分。然而&#xff0c;随着软件功能的日益复杂和用户需求的不断增长&#xff0c;软件产品的稳定性和可靠性问题也愈发凸显。在这样的背景下&#xff0c;软件压力测试作为软件质量保障的重要手段之一&a…

回归预测 | Matlab实现SA-BP模拟退火算法优化BP神经网络多变量回归预测

回归预测 | Matlab实现SA-BP模拟退火算法优化BP神经网络多变量回归预测 目录 回归预测 | Matlab实现SA-BP模拟退火算法优化BP神经网络多变量回归预测预测效果基本描述程序设计参考资料 预测效果 基本描述 1.Matlab实现SA-BP模拟退火算法优化BP神经网络多变量回归预测&#xff0…

盗梦攻击:虚拟现实系统中的沉浸式劫持

虚拟现实&#xff08;VR&#xff09;硬件和软件的最新进展将改变我们与世界和彼此互动的方式&#xff0c;VR头显有可能为用户提供几乎与现实无差别的深度沉浸式体验。它们还可以作为一种跨越遥远距离的方式&#xff0c;通过使用个性化的化身或我们的数字代表&#xff0c;促进社…

旅游陪同翻译难吗, 旅游翻译英译中哪家好?

近来&#xff0c;随着中国旅游业的蓬勃发展&#xff0c;旅游陪同翻译的需求也水涨船高&#xff0c;这些专业的翻译服务者为中外游客搭建起友谊的桥梁&#xff0c;引领他们共同探索中国这片古老而神秘的土地 。那么&#xff0c;旅游陪同翻译英译中难吗&#xff1f;我们如何在众多…

机器学习和深度学习-- 李宏毅(笔记于个人理解)Day 21

Day 21 Self- Attention 选修部分 ​ 学完自适应 再回来看看 Sequence Labling 假如我们现在有一个需要读完全部句子才能解的问题&#xff0c; 那么red window 就需要变得是最大的&#xff08;最长的句子&#xff09;&#xff1b; 其实这里大家有没有想过&#xff0c;这个玩意…

Android Studio历史版本下载地址

https://developer.android.com/studio/archive?hlzh-cn https://blog.csdn.net/crasowas/article/details/130304836