python爬虫学习第十六天--------URLError和HTTPError、cookie登录、Handler处理器

news2025/2/24 17:15:55

🎈🎈作者主页: 喔的嘛呀🎈🎈
🎈🎈所属专栏:python爬虫学习🎈🎈
✨✨谢谢大家捧场,祝屏幕前的小伙伴们每天都有好运相伴左右,一定要天天开心哦!✨✨ 

目录

一、URLError和HTTPError

二、cookie登录

三、Handler处理器


兄弟姐妹们,大家好哇!今天我们来学习URLError和HTTPError、cookie登录、Handler处理器这三个方面的知识

一、URLError和HTTPError

在Python中进行网络爬虫时,经常会遇到 URLErrorHTTPError 异常。这两种异常通常与网络连接和HTTP请求有关,以下是它们的一些常见情况和处理方法:

  1. URLError:表示URL无效或无法打开的错误,可能的原因包括网络连接问题、URL拼写错误等。处理方法包括:
    • 检查URL是否正确,并确保网络连接正常。
    • 使用 try-except 块捕获 URLError 异常,并进行相应的处理。
from urllib.error import URLError
import urllib.request

url = "<http://example.com>"

try:
    response = urllib.request.urlopen(url)
    # 处理响应数据
except URLError as e:
    print("URLError:", e)
    # 处理异常情况

2、HTTPError:表示HTTP请求错误,例如404 Not Found等。处理方法包括:

  • 使用 try-except 块捕获 HTTPError 异常,并根据状态码进行处理。
  • 可以通过 e.code 获取状态码,e.reason 获取原因。
from urllib.error import HTTPError
import urllib.request

url = "<http://example.com/404>"

try:
    response = urllib.request.urlopen(url)
    # 处理响应数据
except HTTPError as e:
    print("HTTPError:", e.code, e.reason)
    # 处理异常情况

在处理这些异常时,可以根据具体情况进行适当的错误处理和重试机制,以确保网络爬虫的稳定性和可靠性。

二、cookie登录

Cookie登录,需要分为以下步骤:

  1. 发送登录请求并获取Cookie:首先,您需要发送一个POST请求到登录页面,包含用户名和密码等登录信息。成功登录后,服务器会返回一个包含登录凭据的Cookie。您可以使用**requests库来发送这个请求,并通过response.cookies**属性获取Cookie。
  2. 使用Cookie进行后续请求:在登录后,您可以使用获取到的Cookie来发送其他请求,以模拟登录状态。每次请求都需要包含这个Cookie,以便服务器能够识别您已经登录。

以下是一个示例,演示如何使用Python进行Cookie登录:

import requests

# 登录页面URL和登录信息
login_url = '<https://example.com/login>'
login_data = {
    'username': 'your_username',
    'password': 'your_password'
}

# 发送登录请求并获取Cookie
response = requests.post(login_url, data=login_data)
cookies = response.cookies

# 使用Cookie发送后续请求
protected_url = '<https://example.com/protected-page>'
response = requests.get(protected_url, cookies=cookies)

# 检查响应状态码
if response.status_code == 200:
    # 打印响应内容
    print(response.text)
else:
    print('Failed to retrieve protected page. Status code:', response.status_code)

在这个示例中,首先发送了一个POST请求到**example.com/login,并包含了用户名和密码作为表单数据。然后,从登录响应中获取了Cookie,并将其保存在cookies变量中。最后,使用这个Cookie发送了一个GET请求到example.com/protected-page**,以获取受保护页面的内容。

案列:模拟登录Gitte并访问用户信息的示例:

import requests
from bs4 import BeautifulSoup

# 登录页面 URL
login_url = '<https://gitte.cn/login>'
# 受保护页面 URL
protected_url = '<https://gitte.cn/settings>'

# 用户名和密码
username = 'your_username'
password = 'your_password'

# 创建会话对象
session = requests.Session()

# 设置请求头
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.116 Safari/537.36'
}

# 发送登录请求,禁用SSL证书验证
login_data = {'username': username, 'password': password}
login_response = session.post(login_url, headers=headers, data=login_data, verify=False)

# 检查登录是否成功
if login_response.status_code == 200:
    print("Login successful")
    # 获取重定向后的页面
    protected_response = session.get(protected_url, headers=headers, verify=False)
    # 检查是否成功访问受保护页面
    if protected_response.status_code == 200:
        print("Protected page content:")
        soup = BeautifulSoup(protected_response.text, 'html.parser')
        # 解析页面内容
        content = soup.find('div', class_='your_content_class')
        if content:
            print(content.text)
        else:
            print("Failed to find content on protected page")
    else:
        print("Failed to retrieve protected page. Status code:", protected_response.status_code)
else:
    print("Login failed")

这个案列是针对cookie这方面的,报错也没事,给后面的知识一块用才可以爬取到信息

Untitled

注意:受保护页面通常指需要登录或授权才能访问的页面。这些页面可能包含用户个人信息、敏感数据或需要特定权限才能查看的内容。通过登录或授权后,用户可以访问这些受保护页面。在网络应用程序中,受保护页面通常用于确保用户身份验证和数据安全性。

三、Handler处理器

Handler处理器在Python的urllib库中是一个非常重要的组件,它提供了一种灵活和高级的方式来处理HTTP请求。使用Handler处理器的主要原因包括:

  1. 处理各种情况的请求:Handler处理器可以处理各种情况下的HTTP请求,如处理HTTP重定向、处理代理、处理cookie等。这使得我们可以更灵活地处理不同情况下的请求。
  2. 定制请求头和请求参数:通过Handler处理器,我们可以定制请求头和请求参数,以满足不同的需求。这样可以更好地模拟浏览器行为,使得我们可以发送更加复杂和特定的请求。
  3. 处理cookie和认证信息:Handler处理器可以用于处理cookie和认证信息,使得我们可以在请求中包含cookie和认证信息,从而实现对需要认证的网站进行访问。
  4. 处理代理:Handler处理器可以用于设置代理服务器,从而实现通过代理服务器发送请求,这对于需要使用代理的情况非常有用。
  5. 处理HTTP和HTTPS请求:Handler处理器可以用于处理HTTP和HTTPS请求,使得我们可以发送安全的HTTPS请求,并对响应进行处理。

总的来说,Handler处理器提供了一种灵活和高级的方式来处理HTTP请求,使得我们可以更好地控制请求和响应的处理过程,从而实现更加复杂和特定的功能。

Handler处理器是Python标准库urllib中用于处理HTTP请求的组件之一,它提供了一种灵活的方式来处理请求和响应。Handler处理器可以用于处理HTTP请求的各种情况,比如处理重定向、处理代理、处理cookie等。

下面是Handler处理器的基本使用方法:

  1. 导入必要的模块:
import urllib.request
import urllib.error

https://lh3.googleusercontent.com/a/AGNmyxaP8ZNr9lxDW8mItZrsrrHxTdxmBq6TmE5JzuBD=s96-c

2.创建一个Handler处理器:

handler = urllib.request.HTTPHandler()

这里创建了一个用于处理HTTP请求的Handler处理器。如果需要处理HTTPS请求,可以使用**urllib.request.HTTPSHandler()**来创建一个处理HTTPS请求的Handler处理器。

3.创建一个Opener对象,并将Handler处理器添加进去:

opener = urllib.request.build_opener(handler)

这里创建了一个Opener对象,并将之前创建的Handler处理器添加进去。

4.使用Opener对象发送请求:

url = '<http://www.example.com>'
req = urllib.request.Request(url)
try:
    response = opener.open(req)
    print(response.read().decode('utf-8'))
except urllib.error.URLError as e:
    print(e)

这里使用Opener对象的**open()方法发送请求,并捕获可能的URLError异常。如果请求成功,可以通过response.read().decode('utf-8')**来获取响应内容。

5.完整示例代码:

import urllib.request
import urllib.error

# 创建一个Handler处理器
handler = urllib.request.HTTPHandler()

# 创建一个Opener对象,并将Handler处理器添加进去
opener = urllib.request.build_opener(handler)

# 使用Opener对象发送请求
url = '<http://www.example.com>'
req = urllib.request.Request(url)
try:
    response = opener.open(req)
    print(response.read().decode('utf-8'))
except urllib.error.URLError as e:
    print(e)

通过以上步骤,我们可以使用Handler处理器来发送HTTP请求,并且可以根据需要添加不同的处理器来处理请求和响应,实现更灵活和高级的功能。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1576158.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

vivado中移位寄存器的优化(二)

移位寄存器优化用于改善移位寄存器单元&#xff08;SRLs&#xff09;与其他逻辑单元之间的负裕量路径的时序。如果存在对移位寄存器单元&#xff08;SRL16E或SRLC32E&#xff09;的时序违规&#xff0c;优化会从SRL寄存器链的开始或结束位置提取一个寄存器&#xff0c;并将其放…

centos安装使用elasticsearch

1.首先可以在 Elasticsearch 官网 Download Elasticsearch | Elastic 下载安装包 2. 在指定的位置(我的是/opt/zhong/)解压安装包 tar -zxvf elasticsearch-7.12.1-linux-x86_64.tar.gz 3.启动es-这种方式启动会将日志全部打印在当前页面&#xff0c;一旦使用 ctrlc退出就会导…

java web day28

多表查询 内连接 写法 外链接 子查询 标量子查询 列子查询 行子查询 表子查询

小程序实现订阅功能和测试发送订阅信息

现在一次性订阅是只能用户点一次才能发送一次&#xff0c;而针对长期模板只有规定的几种类目政务、民生、交通等等的才可以&#xff0c;所以说感觉这功能其实已经不是很适合使用了&#xff0c;只适合一些特别的场景才可以使用。 地址&#xff1a;https://developers.weixin.qq…

软件设计师26--关系代数

软件设计师26--关系代数 考点1&#xff1a;关系模式相关概念例题&#xff1a; 考点1&#xff1a;关系模式相关概念 并∪&#xff1a;结果是两张表所有记录的合并&#xff0c;相同记录只显示一次。 交∩&#xff1a;结果是两张表中相同的记录。 差-&#xff1a;S1-S2&#xff0…

Linux 下安装 openjdk 17【详细步骤】

👉 目标 了解为什么不选择 oracle jdk17,而是选择 openjdk17linux 下安装 openjdk17 详细步骤为什么不选择 oracle jdk17? 官网:Java Downloads | Oracle 中国 官网描述:JDK 17 binaries are free to use in production and free to redistribute, at no cost, under t…

Goingpub国自然基金-免费查询

可进行年份、学部、项目类别等检索&#xff0c;支持生成主题词汇总分析报告。 最最最关键&#xff0c;免费&#xff0c;只需要你注册登录一下&#xff0c;防止被爬虫侵扰。 界面简单&#xff0c;实用&#xff0c;支持模糊搜索&#xff0c;包含最新2023年数据&#xff0c;共56…

蚁群优化算法(Ant Colony Optimization Algorithm)

注意&#xff1a;本文引用自专业人工智能社区Venus AI 更多AI知识请参考原站 &#xff08;[www.aideeplearning.cn]&#xff09; 算法引言 蚁群算法&#xff0c;是一种模拟蚂蚁觅食行为的优化算法。想象一下&#xff0c;当你在野餐时&#xff0c;不小心洒了一些糖在地上。一…

2024免费Mac电脑用户的系统清理和优化软件CleanMyMac

作为产品营销专家&#xff0c;对于各类产品的特性与优势有着深入的了解。CleanMyMac是一款针对Mac电脑用户的系统清理和优化软件&#xff0c;旨在帮助用户轻松管理、优化和保护Mac电脑。以下是关于CleanMyMac的详细介绍&#xff1a; CleanMyMac X2024全新版下载如下: https://…

React18从入门到实战

文章目录 一、React环境的搭建二、项目文件的介绍&#xff08;1&#xff09;package.json&#xff0c;他是项目存放依赖包的地方&#xff0c;里面包括了一些项目核心包及下载的其他插件包&#xff08;2&#xff09;src文件夹是项目源码目录&#xff0c;平时开发页面就在其中&am…

如何成为一名优秀的工程师下

身为工程师&#xff0c;理所当然要重视实践&#xff0c;自然科学不管发展到何时都离不开实验。 电子学本身就是 为了指导工程实践。所以不要谈空洞的理论。现在很多毕业生都面临这样的问题&#xff0c;总是谈一些空洞的理论&#xff0c;甚至错误的但还不以为然的理论。实践可以…

【软考】23种设计模式详解,记忆方式,并举例说明

23种设计模式详解&#xff0c;举例说明 一、创建型模式1.1、抽象工厂模式&#xff08;Abstract Factory&#xff09;1.1.1、简介1.1.2、意图与应用场景1.1.3、结构1.1.4、优缺点1.1.4、示例代码&#xff08;简化版&#xff09; 1.2、建造者模式&#xff08;Builder&#xff09;…

MySQL主从的介绍与应用

mysql主从 文章目录 mysql主从1. 主从简介1.1 主从作用1.2 主从形式 2. 主从复制原理3. 主从复制配置3.1 mysql安装&#xff08;两台主机安装一致&#xff0c;下面只演示一台主机操作&#xff09;3.2 mysql主从配置3.2.1 确保从数据库与主数据库里的数据一样3.2.2 在主数据库里…

34-4 CSRF漏洞 - CSRF跨站点请求伪造

一、漏洞定义 CSRF(跨站请求伪造)是一种客户端攻击,又称为“一键式攻击”。该漏洞利用了Web应用程序与受害用户之间的信任关系,通过滥用同源策略,使受害者在不知情的情况下代表攻击者执行操作。与XSS攻击不同,XSS利用用户对特定网站的信任,而CSRF则利用了网站对用户网页…

vscode教程

个人笔记&#xff08;整理不易&#xff0c;有帮助点个赞&#xff09; 笔记目录&#xff1a;学习笔记目录_pytest和unittest、airtest_weixin_42717928的博客-CSDN博客 个人随笔&#xff1a;工作总结随笔_8、以前工作中都接触过哪些类型的测试文档-CSDN博客 目录 一&#xff1a…

【SpringBoot3】SpringBoot入门

需求&#xff1a;使用 SpringBoot 开发一个web应用&#xff0c;浏览器发起请求 /hello后&#xff0c;给浏览器返回字符串 “hello world "。 步骤 ①. 创建Maven工程 ②. 导入spring-boot-stater-web起步依赖 <dependency> <groupId>org.springframework…

每天学习一个Linux命令之curl

每天学习一个Linux命令之curl 在Linux系统中&#xff0c;有很多有用的命令可以帮助我们与网络进行交互。一个非常常用的命令是curl&#xff0c;它是一个功能强大的工具&#xff0c;可用于发送、接收和处理各种网络请求。本文将详细介绍在Linux下使用curl命令的各种选项及其用法…

IntelliJ IDEA - Since Maven 3.8.1 http repositories are blocked

问题描述 新下载的 IDEA 在构建项目时&#xff0c;在下载引用的包时出现 “Since Maven 3.8.1 http repositories are blocked” 的问题。 原因分析 从 Maven 3.8.1 开始&#xff0c;不再支持 http 的包了。由于现在对网络安全的日益重视&#xff0c;都在向 https 转变&#…

虚拟M的改进

之前为了保留老习俗&#xff0c;虚拟M采用了和M调用一样的约定&#xff0c;这样的好处是习惯上保持一致&#xff0c;小伙伴提出现在是java了&#xff0c;还这样约定方法太啰嗦&#xff0c;确实是有点啰嗦&#xff0c;进行了改进。 改进为三个参数的&#xff0c;方法可以写在任…

SQLite 4.9的 OS 接口或“VFS”(十三)

返回&#xff1a;SQLite—系列文章目录 上一篇:SQLite字节码引擎&#xff08;十二&#xff09; 下一篇:SQLite 4.9的虚拟表机制(十四) 1. 引言 本文介绍了 SQLite OS 可移植性层或“VFS” - 模块位于 SQLite 实现堆栈底部 提供跨操作系统的可移植性。 VFS是Virtual File…