15分钟学 Python 第38天 :Python 爬虫入门(四)

news2025/2/3 18:05:41

Day38 : Python爬虫异常处理与反爬虫机制

章节1:异常处理的重要性

在爬虫开发过程中,网络请求和数据解析常常会遭遇各种异常。正确的异常处理可以提高程序的稳定性,避免崩溃,并帮助开发者快速定位问题。

章节2:常见的异常类型

在爬虫开发中,主要有以下几种异常:

异常类型描述
requests.exceptions.RequestException基类异常,用于处理所有请求异常
requests.exceptions.HTTPError表示HTTP错误,例如404或500错误
requests.exceptions.ConnectionError表示网络连接错误
requests.exceptions.Timeout请求超时错误
requests.exceptions.TooManyRedirects请求重定向过多

章节3:异常处理示例

下面的代码展示了如何在发送请求时进行异常处理:

import requests

def fetch_url(url):
    try:
        response = requests.get(url)
        response.raise_for_status()  # 如果403或404都会引发异常
        return response.text
    except requests.exceptions.HTTPError as http_err:
        print(f"HTTP错误: {http_err}")
    except requests.exceptions.ConnectionError:
        print("连接错误,请检查网络连接。")
    except requests.exceptions.Timeout:
        print("请求超时,请重试。")
    except requests.exceptions.RequestException as e:
        print(f"请求时发生错误: {e}")
    return None

url = 'http://example.com'
data = fetch_url(url)
if data:
    print(data)

章节4:反爬虫机制概述

反爬虫机制是网站采用的一系列技术手段,用以阻止或限制爬虫的访问。常见的反爬虫策略包括:

反爬虫机制描述
用户代理检查检查请求的User-Agent是否正常
IP限制限制特定IP地址的请求频率
验证码在请求中插入验证码以确认用户身份
Cookie验证使用Cookies验证用户身份
动态内容加载使用JavaScript动态加载部分内容,爬虫无法直接获取

章节5:处理反爬虫机制

为了应对反爬虫机制,爬虫开发者可以采取一些策略:

5.1 设置用户代理(User-Agent)

伪装成浏览器发送请求:

headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'
}
response = requests.get(url, headers=headers)
5.2 使用代理

通过代理服务器绕过IP限制:

proxies = {
    'http': 'http://your_proxy:port',
    'https': 'http://your_proxy:port',
}
response = requests.get(url, proxies=proxies)
5.3 添加延迟

限制请求频率,以避免被封:

import time

for i in range(5):
    response = requests.get(url)
    print(response.status_code)
    time.sleep(2)  # 每次请求间隔2秒

章节6:完整示例 - 反爬虫处理

以下是一个示例程序,展示了如何应对反爬虫机制和进行异常处理。

import requests
import time

def fetch_url(url):
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'
    }
    proxies = {
        'http': 'http://your_proxy:port',
        'https': 'http://your_proxy:port',
    }
    try:
        response = requests.get(url, headers=headers, proxies=proxies)
        response.raise_for_status()
        return response.text
    except requests.exceptions.HTTPError as http_err:
        print(f"HTTP错误: {http_err}")
    except requests.exceptions.ConnectionError:
        print("连接错误,请检查网络连接。")
    except requests.exceptions.Timeout:
        print("请求超时,请重试。")
    except requests.exceptions.RequestException as e:
        print(f"请求时发生错误: {e}")

url = 'http://example.com'
for i in range(5):
    data = fetch_url(url)
    if data:
        print(f"请求成功: {len(data)} 字节")
    time.sleep(2)  # 每次请求间隔2秒

章节7:流量控制与限频策略

7.1 请求频率控制

为了避免触发反爬虫机制,可以设置请求频率:

  • 随机延迟:使用随机数生成请求间隔。
import random

for i in range(5):
    delay = random.uniform(1, 5)  # 随机1到5秒之间
    time.sleep(delay)
    data = fetch_url(url)

章节8:异常和反爬虫的调试工具

工具描述
Fiddler网络调试代理,查看HTTP请求和响应头信息
PostmanAPI开发工具,测试HTTP请求
Selenium处理动态网页抓取,可以完整自动化浏览器行为

章节9:总结

在本节中,我们详细探讨了Python爬虫中的异常处理与反爬虫机制。学习如何有效处理各种异常,并采取合理的反爬虫策略,以增强爬虫程序的稳定性和抗压能力。

通过掌握这些技能,您将更加自信地编写高效、稳健的爬虫,抓取互联网中的各种数据,帮助实现数据分析和应用开发。


在这里插入图片描述
怎么样今天的内容还满意吗?再次感谢观众老爷的观看。
最后,祝您早日实现财务自由,还请给个赞,谢谢!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2191374.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

requests案例——腾讯新闻数据的爬取

需求: 1.利用requests方法爬取该i.news.qq.com网站的数据(包括名字和对应链接) 2.实现翻页的爬取 3.将爬取下来的数据保存在excel文件中 4.利用jsonpath来解析获取的数据 5.使用openpyxl库处理 Excel 文件 注意: 1.如果报以…

一个不错的 SQL 编码风格的指南

前言 SQL语句的编写对于我们后端开发者而言是一个必备的技巧,在日常工作中,SQL语言编写的质量不仅仅会影响到团队的合作效率与项目的可维护性,还直接关系到数据库的性能优化与数据安全。今天大姚给大家分享一个不错的 SQL 编码风格的指南&am…

卡码网KamaCoder 117. 软件构建

题目来源:117. 软件构建 C题解(来源代码随想录):拓扑排序:给出一个 有向图,把这个有向图转成线性的排序。拓扑排序也是图论中判断有向无环图的常用方法。 拓扑排序的过程,其实就两步&#xff1…

Kubernetes资源详解

华子目录 1.Kubernetes中的资源1.1资源管理介绍1.2资源管理方式1.2.1命令式对象管理1.2.2kubectl常见command命令1.2.3资源类型1.2.4常用资源类型 基本命令示例运行和调试命令示例高级命令示例总结 其他命令示例create和apply区别案例显示命名空间查看命名空间中的pod如何对外暴…

数据库伸缩设计-分库分表如何做?读书笔记

一些企业内部系统,用户数量和业务规模有限,因此并不会产生巨大的数据量,这时数据库的存储和读写性能均不会成为瓶颈,没有扩容的需要,因此无须考虑伸缩性。对于一些互联网系统,前后端应用可以通过CDN 、缓存…

基于Zynq SDIO WiFi移植二(支持2.4/5G)

1 SDIO设备识别 经过编译,将移植好的uboot、kernel、rootFS、ramdisk等烧录到Flash中,上电启动,在log中,可看到sdio设备 [ 1.747059] mmc1: queuing unknown CIS tuple 0x01 (3 bytes) [ 1.761842] mmc1: queuing unknown…

vite学习教程06、vite.config.js配置

前言 博主介绍:✌目前全网粉丝3W,csdn博客专家、Java领域优质创作者,博客之星、阿里云平台优质作者、专注于Java后端技术领域。 涵盖技术内容:Java后端、大数据、算法、分布式微服务、中间件、前端、运维等。 博主所有博客文件…

Meta MovieGen AI:颠覆性的文本生成视频技术详解

近年来,生成式AI技术的发展迅猛,尤其是在文本生成图像、文本生成视频等领域。Meta公司近期推出的MovieGen AI,以其强大的文本生成视频能力震撼了整个AI行业。本文将详细解读Meta MovieGen AI的核心技术、功能特性及其在实际应用中的潜力。 一…

ssrf学习(ctfhub靶场)

ssrf练习 目录 ssrf类型 漏洞形成原理(来自网络) 靶场题目 第一题(url探测网站下文件) 第二关(使用伪协议) 关于http和file协议的理解 file协议 http协议 第三关(端口扫描&#xff09…

Linux自动化构建工具Make/Makefile

make是一个命令 makefile是一个文件 touch 创建并用vim打开makefile 写入依赖对象和依赖方法 mycode是目标文件 第二行数依赖方法 以tab键开头 make makefile原理 makefile中写的是依赖关系和依赖方法 clean英语清理文件 后不用加源文件。.PHONY定义clean是伪目标。 make只…

各省份-产业链现代化水平(2001-2022年)

产业链现代化水平是一个综合性指标,它为我们提供了一个多维度的视角来评估各省份在产业链现代化进程中的发展水平。这个指标涵盖了技术创新、产业升级、生产效率、产业结构优化等多个方面,包含原始数据、测算结果以及参考文献。 2001年-2022年各省份-产…

Debezium日常分享系列之:Debezium 3.0.0.Final发布

Debezium日常分享系列之:Debezium 3.0.0.Final发布 Debezium 核心的变化需要 Java 17基于Kafka 3.8 构建废弃的增量信号字段的删除每个表的详细指标 MariaDB连接器的更改版本 11.4.3 支持 MongoDB连接器的更改MongoDB sink connector MySQL连接器的改变MySQL 9MySQL…

vscode 连接云服务器(ubantu 20.04)

更改服务器系统 如果云服务器上的系统不是ubantu20.04的,可以进行更改: 登录云服务官网(这里以阿里云为例)点击控制台 点击服务器实例 点击更多操作、重置系统 点击重置为其他镜像、系统镜像:选择你要使用的系统镜像…

[Linux]:线程(三)

✨✨ 欢迎大家来到贝蒂大讲堂✨✨ 🎈🎈养成好习惯,先赞后看哦~🎈🎈 所属专栏:Linux学习 贝蒂的主页:Betty’s blog 1. POSIX 信号量 1.1 信号量的概念 为了解决多执行流访问临界区&#xff0c…

Java中的break、continue和return语句

break、continue和return break语句引入基本介绍基本语法示意图注意事项练习String字符串的比较 continue跳转控制语句基本介绍基本语法示意图 return跳转控制语句 break语句 引入 随机生成1-100的一个数,直到生成了97这个数,看看你一共用了几次&#…

前端性能优化 面试如何完美回答

前言 性能优化是目前在面试中被问到非常多的问题,主要就是通过各种算和技术来提高页和应用的速度和用户体前端性能优化的问题并不好回答 在回答的时候干万不要掉进一个误区,认为性能优化只是几个技术点而已,事实上性能优化涉及到的是多方面的…

【2024年10月测试通过】conda下使用虚拟环境安装最新版pytorch2.4+cuda12.4

开头先说重点: 1.采用conda的虚拟环境,会在沙盒环境下安装好所有所需包,而且该虚拟环境拷贝给其他人员可以直接用,很方便。 2.pytorch官网访问不了,有一个国内镜像推荐,地址为PyTorch - PyTorch 中文 3.…

unity ps 2d animation 蛇的制作

一、PS的使用 1.打开PS 利用钢笔工具从下往上勾勒填充 2.复制图层,Ctrl T,w调为-100% 3.对齐图层并继续用钢笔工具进行三角勾勒 3.画眼睛,按U快捷键打开椭圆工具,按住Shift可以画圆,填充并复制图层对称。 4.画笔工具,打开小…

Golang | Leetcode Golang题解之第458题可怜的小猪

题目: 题解: func poorPigs(buckets, minutesToDie, minutesToTest int) int {if buckets 1 {return 0}combinations : make([][]int, buckets1)for i : range combinations {combinations[i] make([]int, buckets1)}combinations[0][0] 1iterations…

「漏洞复现」用友U8 CRM config/fillbacksettingedit.php SQL注入漏洞

0x01 免责声明 请勿利用文章内的相关技术从事非法测试,由于传播、利用此文所提供的信息而造成的任何直接或者间接的后果及损失,均由使用者本人负责,作者不为此承担任何责任。工具来自网络,安全性自测,如有侵权请联系删…