爬虫入门指南(3):Python网络请求及常见反爬虫策略应对方法

news2024/11/23 0:58:27

文章目录

  • 引言
  • HTTP协议与请求方法
    • HTTP协议
    • 请求方法
  • 使用Python进行网络请求
    • 安装Requests库
    • 发送GET请求
    • 发送POST请求
  • 反爬虫与应对策略
    • IP限制
      • 使用代理IP:
    • 用户代理检测
      • 设置User-Agent头部:
  • 验证码
      • 参考方案
  • 动态页面
  • 请求频率限制
  • 未完待续....

引言

在当今信息时代,网络请求已成为了人们获取数据的重要方式。然而,同时也产生了大量的爬虫行为,这些爬虫可能会对网站的正常运行造成影响,甚至会引发一系列的反爬虫措施。本文将详细介绍网络请求与反爬虫的知识点,以及如何使用Python进行网络请求和应对常见的反爬虫策略。

HTTP协议与请求方法

HTTP协议

HTTP(Hypertext Transfer Protocol)是一种用于传输超文本的应用层协议。它定义了客户端和服务器之间进行通信时的格式和规则。HTTP使用请求-响应模型,客户端发送请求给服务器,服务器返回响应给客户端。

HTTP协议

HTTP协议由请求和响应组成。请求包括请求行、请求头和请求体,用于向服务器发送信息。响应包括状态行、响应头和响应体,用于从服务器接收信息。

请求方法

请求

HTTP定义了多种请求方法,常见的有:

  • GET:用于获取资源,不对服务器端数据做任何修改。
  • POST:用于提交数据,向服务器提交信息并请求服务器进行处理。
  • PUT:用于更新资源,将请求的数据存储到指定的URL。
  • DELETE:用于删除资源,从服务器上删除指定的URL。
  • HEAD:类似于GET请求,但只返回响应头部信息而不返回具体内容。

使用Python进行网络请求

在这里插入图片描述

Python提供了多种库用于发送网络请求,其中常用的是Requests库。

安装Requests库

使用pip命令安装Requests库:

pip install requests

发送GET请求

import requests

response = requests.get('https://www.example.com')
print(response.text)

代码中,我们使用requests.get方法发送了一个GET请求,并将服务器的响应内容输出到控制台。你可以尝试将https://www.example.com替换为你想要访问的网址进行测试。

发送POST请求

import requests

data = {'username': 'my_username', 'password': 'my_password'}
response = requests.post('https://www.example.com/login', data=data)
print(response.text)

代码中,我们使用requests.post方法发送了一个POST请求,并将提交的表单数据传递给服务器。同样地,你可以将https://www.example.com/login替换为你想要访问的登录接口进行测试。

反爬虫与应对策略

反爬虫与应对策略

为了保护网站的数据和服务质量,很多网站采取了反爬虫措施。以下是一些常见的反爬虫策略及相应的应对方法:

IP限制

网站会根据IP地址对请求进行限制或封禁。解决方法之一是使用代理IP,通过切换IP地址发送请求,绕过IP限制。

使用代理IP:

import requests

proxies = {
    'http': 'http://代理IP:端口',
    'https': 'https://代理IP:端口'
}

url = '目标网址'
response = requests.get(url, proxies=proxies)

将“代理IP”和“端口”替换为有效的代理IP地址和相应端口。通过传递proxies参数,可以使用代理IP进行请求。

用户代理检测

网站可能会检查请求中的User-Agent头部信息,以判断请求是否来自爬虫。我们可以设置合理的User-Agent头部,使其看起来更像常见的浏览器请求。

设置User-Agent头部:

import requests

headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'
}

url = '目标网址'
response = requests.get(url, headers=headers)

将headers参数中的User-Agent值设置为常见浏览器的User-Agent,使其看起来更像浏览器请求。

验证码

为了确认请求的真实性,网站可能会要求用户输入验证码。处理验证码是一个挑战,可以借助第三方的验证码识别服务或使用机器学习算法进行验证码识别。

参考方案

  • 使用第三方验证码识别服务:有一些在线服务提供自动识别验证码的功能,你可以将验证码图片提交给这些服务进行识别。
  • 使用机器学习算法进行验证码识别:通过训练机器学习模型来识别常见的验证码类型,这需要一定的数据集和算法知识。

动态页面

有些网站使用JavaScript动态加载页面内容,使得简单的爬虫无法获取完整数据。在这种情况下,可以使用工具如Selenium模拟浏览器行为,动态渲染页面并获取完整数据。

案例如下

from selenium import webdriver

# 使用Selenium
driver = webdriver.Chrome()
driver.get(url)

# 对动态页面执行操作,如滚动、点击等
# ...

# 获取完整页面内容
page_source = driver.page_source

# 关闭浏览器驱动
driver.quit()

请求频率限制

请求频率限制: 为了防止恶意爬虫过度占用服务器资源,网站可能会对请求的频率进行限制。为了应对请求频率限制,可以采用以下方法

  • 设置合理的请求间隔时间:在发送请求之间增加固定的延迟,例如每个请求之间间隔1秒,以避免过于频繁的请求。
  • 引入随机延迟:在设置请求间隔时间的基础上,再引入一个随机的延迟,模拟人类的操作行为,使得请求看起来更加自然。
import time
import requests

# 设置合理的请求间隔时间
headers = {
  'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36'
}

for page in range(1, 11):
    response = requests.get(f'http://example.com?page={page}', headers=headers)
    # 处理响应数据
    # ...

    time.sleep(1)  # 间隔1秒


import time
import random
import requests

# 引入随机延迟
headers = {
  'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36'
}

for page in range(1, 11):
    response = requests.get(f'http://example.com?page={page}', headers=headers)
    # 处理响应数据
    # ...

    delay = random.uniform(0.5, 1.5)  # 随机延迟,范围为0.5到1.5秒
    time.sleep(delay)

未完待续…

未完待续....

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/703503.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Python 基本数据类型(五)

文章目录 每日一句正能量List(列表)结语 每日一句正能量 营造良好的工作和学习氛围,时刻牢记宗旨,坚定信念,胸怀全局,埋头苦干,对同事尊重信任谅解,发扬团体协作精神,积极…

安装tomcat的步骤与部署服务详解

目录 一安装tomcat步骤 1.首先关闭防火墙跟安全机制 2.安装jdk把jdk包与tomcat的包下载到/opt目录 3.然后用命令查看安装好的版本号 4.安装好jdk后需要把他设置到环境变量中去以免系统找不到 5.下来装tomcat 6.首先把你的tomcat安装包解压 然后包名太长简写成tomcat 7.进…

【单片机】STM32单片机频率计程序,外部脉冲计数程序,基于脉冲计数的频率计程序,STM32F103

文章目录 定时器外部脉冲计数功能程序实现TIM1 定时一秒钟中断TIM2 外部脉冲计数配置TIM3 PWM产生总程序 定时器外部脉冲计数功能 两种方法用于在单片机中实现频率计的功能。 第一种方法是通过定时器来衡量信号的周期,然后将周期转换为频率。在这种方法中&#xf…

异步秒杀逻辑前后端

前端 Sckill.vue <template><div><h2>go语言从入门到放弃</h2><el-button type"danger" click"handleSckill">秒杀</el-button></div> </template><script> export default {name: "Sckill&q…

华为认证 | HCIP-Datacom考试费多少?

华为认证之前版本的是RS体系的&#xff0c;也是我们所称的路由交换宣布结束。 Datacom代替了RS&#xff0c;考试内容和形式也发生了变化&#xff0c;今天就让我们来详细了解一下。 01 HCIP-Datacom考什么 HCIP-Datacom系列认证包含1门核心认证Core Technology和6门子认证。 …

MySQL数据库的优化技术二

纵论 对mysql优化时一个综合性的技术&#xff0c;主要包括 表的设计合理化(符合3NF)添加适当索引(index) [ 四种: 普通索引、主键索引、唯一索引unique、全文索引 ]分表技术( 水平分割、垂直分割 ) 水平分割根据一个标准重复定义几个字段值相同&#xff0c;表名称不同的表&…

七.图像处理与光学之镜头LSC

七.图像处理与光学之镜头LSC Lens Shading视为镜头阴影/镜头暗影,此外,还有称Lens Shading为亮度均匀性的。 7.1 LSC(Lens Shading Correction)现象 具体现象如下: 如图所示: 拍摄纯灰色卡(正常所有像素值一样)时shading的具体现象 上侧称为Luma shading,下侧称为c…

Camtasia Studio 2023永久激活版免费下载

电脑屏幕录制工具Camtasia Studio2023是一款功能非常强大的电脑屏幕录像软件&#xff0c;这款软件目前在国内非常受欢迎。我们可以通过这款软件来录制各种软件使用教程和游戏攻略教程。这样你就可以将自己在电脑上的每一步操作全部录制下来&#xff0c;从而分享给其他人欣赏。 …

logback日志的分片压缩

logback-spring.xml <?xml version"1.0" encoding"UTF-8"?> <configuration debug"true"><springProperty name"LOG_PATH" source"shands.log.logPath" defaultValue"/var/delonix/logs/local"…

在 Jetpack Compose 中创建 AppBar

Jetpack Compose 是 Android 的现代 UI 工具库&#xff0c;使用声明性编程简化了 UI 的开发过程。在本文中&#xff0c;我们将学习如何使用 Jetpack Compose 创建 AppBar。 什么是 AppBar&#xff1f; AppBar&#xff0c;也就是我们常说的顶部应用栏&#xff0c;是用户界面的一…

基于YOLOv5系列【n/s/m/l】模型开发构建人体手势目标检测识别分析系统

人体手势检测识别是指通过计算机视觉和深度学习技术&#xff0c;自动地识别和理解人体的手势动作。这项技术可以应用于各种领域&#xff0c;如人机交互、虚拟现实、智能监控等。 下面是一般的人体手势检测识别流程&#xff1a; 数据采集&#xff1a;首先需要收集包含手势动作的…

AI自动生成代码,是时候冷静下来思考如何保障代码安全了

HDC期间可参与华为开发者大会Check新人抽奖活动&#xff0c;活动链接在文末。 华为开发者大会2023将于7月7日与各位开发者进行见面&#xff0c;本次大会的主题演讲内容为&#xff1a;AI重塑千行百业。 自从AI聊天被推出之后&#xff0c;其热度就一直是高居不下。身边的小伙伴们…

【python】—— 基础语法(二)

序言&#xff1a; 在上期&#xff0c;我们已经对python进行了初步的学习和了解。本期&#xff0c;我将继续带领大家学习关于python的基本知识&#xff01;&#xff01; 目录 &#xff08;一&#xff09;顺序语句 &#xff08;二&#xff09;条件语句 1、什么是条件语句 2、…

基于springboot实现的健身房系统(免费)

1.1 项目概述 开发语言&#xff1a;Java8 数据库&#xff1a;MySQL5.7以上版本 前端技术&#xff1a;template模板引擎 后端技术&#xff1a;Spring SpringMVC MyBaties shiro 数据库连接池&#xff1a;Druid 服务器&#xff1a;Tomcat 开发工具&#xff1a;idea na…

【C语言】十大经典排序算法-动图演示

目录 0、算法概述 0.1 算法分类 0.2 算法复杂度 1、冒泡排序&#xff08;Bubble Sort&#xff09; 1.1 算法描述 1.3 代码实现 2、选择排序&#xff08;Selection Sort&#xff09; 2.1 算法描述 2.2 动图演示 2.3 代码实现 2.4 算法分析 3、插入排序&#xff08;I…

从零开始 Spring Boot 52:@Embedded 和 @Embeddable

从零开始 Spring Boot 52&#xff1a;Embedded 和 Embeddable 图源&#xff1a;简书 (jianshu.com) 这篇文章会介绍Embedded和Embeddable两个注解在 JPA 中的用法。 简单示例 先看一个示例&#xff1a; AllArgsConstructor Builder Data Entity Table(name "user_stu…

王益分布式机器学习讲座~Random Notes (1)

0 并行计算是什么&#xff1f;并行计算框架又是什么 并行计算是一种同时使用多个计算资源&#xff08;如处理器、计算节点&#xff09;来执行计算任务的方法。通过将计算任务分解为多个子任务&#xff0c;这些子任务可以同时在不同的计算资源上执行&#xff0c;从而实现加速计…

高数基础9

目录 求函数的极值以及曲线的凹项和拐点 例题1 例题2&#xff1a; 例题3&#xff1a; 例题4&#xff1a; 例题5&#xff1a; 例题6&#xff1a; 求渐近线&#xff1a; 例题7 例题8 例题9 例题10&#xff1a; 方程的根 例题11&#xff1a; 零点定理&#xff1a; 罗…

ECharts x轴文本标签全部显示

如果echarts显示标签的时候没有全部显示 代码如下&#xff1a; xAxis: {axisLabel: {interval: 0, //设置文本标签全部显示rotate: 5, //如果内容重叠最好设置一下旋转&#xff0c;就不会重叠了formatter: function(value) { //如果再不行就用formatter自己来截取换行return va…

Echarts折线图设置折线阴影

series中lineStyle添加阴影相关的属性&#xff1a; option {......series: [{......lineStyle: {normal: {width: 4,shadowColor: rgba(0,0,0,1), shadowBlur: 10,shadowOffsetY: 10,shadowOffsetX: 0,......}},......}] };未添加阴影效果&#xff1a; 添加阴影效果&#xf…