21. 反爬工程师都会用的手段,IP限制反爬 - 爬虫训练场

news2024/9/21 16:31:27

本篇博客我们实现的案例是 IP 限制反爬,翻译过来就是每个 IP 在规定时间内限制访问次数。
例如,可以限制单 IP 每秒访问 5 次,超过之后就会返回 403 错误。

Flask 实现 IP 限制

    • 使用 Flask 插件
    • 自定义中间件限制 IP
    • 自定义请求钩子

使用 Flask 插件

实战中可以使用第三方模块 Flask-Limiter(Flask 限流器) 来实现 IP 限制。在 PyCharm 中直接安装即可。

21. 反爬工程师都会用的手段,IP限制反爬 - 爬虫训练场
使用命令行如下所示:

pip install Flask-Limiter

然后就可以在 Flask 应用中使用 Flask-Limiter 插件,提前建立相关视图函数。

视图函数在 app/school/index.py 文件中;
前端模板文件复制 templates/school/ajax_list.html 文件为 ajax_list3.html 即可。

原接口请求地址是 /ss/api2,现在修改为 /ss/api3,同时在 index.py 中复制原接口函数。

@s.route('api3')
def school_api3():
    page = int(request.args.get("page", 1))

    pagination = pagination_object(page)

    return jsonify(pagination)

后续我们的核心逻辑都将在上述函数进行改写,导入 Flask-Limiter 插件。

from flask_limiter import Limiter
from flask_limiter.util import get_remote_address,get_ipaddr

上述代码在 app/__init__.py 中进行实现,实例化操作也在该文件创建。

limiter = Limiter(app, key_func=get_ipaddr)

使用的时候,只需要引入该对象,然后添加装饰器即可。

# 从 app 中导入 limiter 对象
from app import limiter

@s.route('api3')
@limiter.limit("3/second")
def school_api3():
    page = int(request.args.get("page", 1))

    pagination = pagination_object(page)

    return jsonify(pagination)

上述代码 @limiter.limit("3/second") 表示限制每秒3次请求,有两种方式表示速率限制,如下所示。

“100 per day”、“50 per hour”、“20 per minute”、“1 per second”
“100/day”、“50/hour”、“20/minute”、“1/second”

装饰器可以单一修饰,也可以多个修饰,分别如下所示。

  • 单一修饰:限制字符串可以是单个限制,也可以是定界符分隔的字符串。
@app.route("api3")
@limiter.limit("100/day;10/hour;1/minute")
def my_route()
  • 多个装饰器:限制字符串可以是单个限制,也可以是定界符分隔的字符串,也可以是两者的组合。
@app.route("api3")
@limiter.limit("100/day")
@limiter.limit("10/hour")
@limiter.limit("1/minute")
def my_route():

除此之外,在实例化限速器对象的时候,还用到了限制域内容,特指根据什么进行限制。

  • get_remote_address:根据请求的 remote_address
  • get_ipaddr:根据请求 X-Forwarded-For 标头中的最后IP地址。

接下来我们需要拿到生成环境做一下测试,查看一下捕获到的 IP 是否正确,在爬虫训练冲项目中,可以正确获取到 IP 值,如果你使用了反向代理,那么 Flask-Limiter 将使用默认的 key_func,即 get_remote_address 来获取客户端的 IP 地址。 在这种情况下,Flask-Limiter 将会看到反向代理的 IP 地址,而不是实际客户端的 IP 地址。

为了解决这个问题,你可以使用自定义的 key_func 函数,用来检索客户端的真实 IP 地址。 例如:

from flask import request

def get_real_ip():
    if request.headers.getlist("X-Forwarded-For"):
        return request.headers.getlist("X-Forwarded-For")[0]
    return request.remote_addr

limiter = Limiter(app, key_func=get_real_ip)

这样,Flask-Limiter 就会使用客户端的真实 IP 地址来进行限制,而不是反向代理的 IP 地址。

请注意,如果你使用了多个反向代理,那么上述 get_real_ip() 函数可能无法获取客户端的真实 IP 地址。 在这种情况下,你可能需要检查所有的 “X-Forwarded-For” 头,以找到客户端的真实 IP 地址。 例如:

def get_real_ip():
    x_forwarded_for = request.headers.getlist("X-Forwarded-For")
    if x_forwarded_for:
        return x_forwarded_for[-1]
    return request.remote_addr

这样,你就可以使用 Flask-Limiter 来限制客户端的真实 IP 地址,即使在反向代理的情况下也是如此。

实战中有时候需要记录 IP 访问此处,判断该 IP 访问次数是否达到上线,Limiter 默认使用的是内存记录,这在生产环境中显然是不现实的,所以这里补充一个 小知识点:Flask-Limiter 使用 redis 作为数据储存容易。

自定义中间件限制 IP

你也可以自己实现一个中间件来实现 IP 限制。

中间件是一个可以在请求和响应之间插入的代码,通常用于实现某些功能,比如认证、IP 限制等。

在 Flask 中,中间件可以通过装饰器的方式使用,例如:

def ip_limiter(app):
    def middleware(next):
        def wrapper(*args, **kwargs):
            # 在这里处理 IP 限制逻辑
            return next(*args, **kwargs)
        return wrapper
    return middleware

app.register_middleware(ip_limiter)

后续操作是在 middleware() 函数中实现 IP 限制逻辑即可。

自定义请求钩子

Flask 还提供了一种在请求之前插入代码的机制,叫做请求钩子。使用方法如下:

@app.before_request
def ip_limiter():
    # 在这里处理 IP 限制逻辑
    pass

ip_limiter() 函数中,你可以获取请求的 IP 地址,然后根据你的限制规则来决定是否允许这个请求继续执行。

例如,你可以使用 Flask 提供的 request 对象来获取请求的 IP 地址:

@app.before_request
def ip_limiter():
    ip = request.remote_addr
    # 在这里处理 IP 限制逻辑
    pass

注意,如果你的应用部署在有反向代理的环境中,那么 request.remote_addr 可能不是真实的客户端 IP,而是反向代理的 IP。在这种情况下,你需要使用特定的方法来获取客户端的真实 IP。

最后,如果你希望限制某个 IP 访问次数,你可以使用一个字典来记录每个 IP 的访问次数,每次请求时递增计数器,然后判断是否超过限制。

ip_counter = {}

@app.before_request
def ip_limiter():
    ip = request.remote_addr
    if ip not in ip_counter:
        ip_counter[ip] = 0
    ip_counter[ip] += 1
    if ip_counter[ip] > 10:
        # 超过限制,拒绝请求
        abort(429)

上述代码实现的结果是:每个 IP 每分钟最多访问 10 次。

本案例到此结束,已更新到 爬虫训练场 欢迎大家访问学习。
项目同步到代码仓库 https://gitcode.net/hihell/spider_playground

📢📢📢📢📢📢
💗 你正在阅读 【梦想橡皮擦】 的博客
👍 阅读完毕,可以点点小手赞一下
🌻 发现错误,直接评论区中指正吧
📆 橡皮擦的第 820 篇原创博客

从订购之日起,案例 5 年内保证更新

  • ⭐️ Python 爬虫 120,点击订购 ⭐️
  • ⭐️ 爬虫 100 例教程,点击订购 ⭐️

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/141740.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

CSS3 滤镜效果

文章目录CSS3 滤镜效果概述说明使用案例鬼屋效果代码下载CSS3 滤镜效果 概述 在CSS3中,新增了滤镜效果,可以轻松实现黑白效果、复古效果、亮度效果等。 说明 语法 filter: 取值;filter属性取值 属性值说明brightness(百分比)亮度brightness()方法的…

一款数据可视化分析报表工具

在这个数据信息化时代,每分每秒都产生海量数据,在海量数据中,挖掘出有用的数据,并且能以直观的方式展示这些数据,变得尤为重要,大家或许还在为做报表感到为难,想在众多数据中处理,查…

leetcode-hot链表专题——206. 反转链表

206. 反转链表 递归法 ListNode* reverse(ListNode *pre,ListNode *cur){if(cur NULL) return pre;ListNode *next cur->next;cur->next pre;return reverse(cur,next);}ListNode* reverseList(ListNode* head) {return reverse(NULL,head);}迭代法 ListNode* rever…

Python爬虫编写乱码问题、验证码登录问题和IP代理问题解决

今天继续给大家介绍Python爬虫相关知识,本文主要内容是Python爬虫编写乱码问题、验证码登录问题和IP代理问题解决。 一、乱码问题解决 我们在使用Python爬虫爬取网页信息时,有时会遇上乱码问题(特别是爬取中文网页信息时)&#…

C语言进阶——指针(二)

一. 函数指针 说到指针,我们可以想到的是取地址操作符 int ADD(int a,int b) {return ab; } int main() {printf("%p\n", &ADD);return 0; } 如此,我们便可以得到一个地址 而我们便可以将这个地址存入到一个函数指针中 int(*p)(int,…

各种卷积的说明

一、普通卷积 1、多通道输入,单通道输出 输入为三通道的6*6*3,过滤器也是三通道的分别对应RGB三个通道。其中: 过滤器的通道数需要和被卷积目标的通道数保持一致。输出通道数卷积核个数计算过程包含了先卷积再融合的过程。3个通道各种卷积得…

图像处理:二值掩膜影像去噪与边缘强化

前言这篇博客主要解决的一个问题是掩膜图像的噪声去除和边缘强化,如下图1所示。可以看到掩膜图像上有很多的斑点噪声,而且掩膜的轮廓也不够清晰。所以我们的目标就是一方面尽可能把这些斑点噪声去除,另一方面尽量突出掩膜边界。另外处理后的掩…

c#入门-多播委托,匿名函数

多播委托 委托作为变量,也可以和-。委托可以和方法组相加,但方法组和方法组不能相加。 储存多个函数时,调用委托会按照加的顺序依次执行。但返回值只使用最后绑定的函数。 使用 – 时,如果储存了这个值,那么会移除第一…

深圳电子行业的mes系统的需求分析方法~先达智控

深圳电子行业mes系统的需求分析方法导读:如今,制造业的行业竞争越来越激烈,减少产品成本、提高产品质量,缩短开发周期,已成为当前企业生产与发展中的一个重点方向。而对电子行业而言,厂家着重考虑并解决了产…

我们想要赚钱,就要理解赚钱的本质、要素、公式和障碍

想要赚钱,就要先理解赚钱,只有理解了赚钱,才能够赚到钱。赚钱的本质是商业,而商业的本质是交易,那交易的本质又是什么呢?就是价值交换。价值交换,就是我们怎么能与别人达成合作,并且…

朱江明赋予了零跑新的活力

作为今年风云的智能自主化新能源汽车品牌,零跑汽,一度是人们谈论的热点话题。零跑汽车在今年也取得了非常不错的销量,这么一个响当当的品牌在之前其实发展几度遭遇挫折,而正是创始人朱江明几次将零跑汽车起死回生,赋予…

使用基于python的neurora进行表征相似性分析(RSA)

发现了一款用于表征分析的Python API,还是挺方便的,这里简单介绍一下进行表征相似性分析的使用方法。官方文档见https://neurora.github.io/documentation/index.html下载pip install neurora表征相似性分析的知识可见:https://zhuanlan.zhih…

QSqlDatabase::drivers()输出为空的解决办法

解决问题&#xff1a;今天项目中需要用到QT连接MYSQL数据库进行数据库访问&#xff0c;使用数据库驱动加载代码&#xff1a; qDebug()<<"数据库驱动&#xff1a;"<<QSqlDatabase::drivers();打印出来的结果居然为空“()”。 尝试解决方案&#xff1a; …

逻辑漏洞渗透与攻防(三)之登录前端验证漏洞

目录 前言 登录前端验证漏洞 忘记密码 给邮箱/手机发验证码 前端验证绕过 设置新密码时改他人密码 ​编辑 某网站密码找回功能 链接的形式-链接token参数可逆 服务端验证逻辑缺陷 登录状态下修改密码等验证条件 参数带用户名等多阶段验证 重置密码 重置后的默认密…

软件产品科技成果鉴定需要提供哪些材料?软件测试费用怎么算?

一、软件产品科技成果鉴定是什么? 软件产品科技成果鉴定是有效评价科技成果质量和水平的方法之一&#xff0c;也是鼓励科技成果通过市场竞争等方式得到有效的评价和认可&#xff0c;可以推动科技成果的进步和转化。软件产品科技成果鉴定测试报告是申报国家、省、市科技成果奖…

SQLite Database Introduction

Use SQLite installed on Linux (CentOS7) to introduce.(You can also use python to install SQLite3 for learning.)•SQLite Preface•Introduction to SQLite Features•SQLite Data Type•SQLite Constraint•SQLite Syntax•SQLite Join•SQLite Database & Table•…

第01讲:ElasticSearch安装

一、什么是ElasticSearch 二、ElasticSearch的安装 Elasticsearch 分为 Linux 和 Windows 版本&#xff0c;基于我们主要学习的是 Elasticsearch 的 Java 客户端的使用&#xff0c;所以课程中使用的是安装较为简便的 Windows 版本。 2.1、Windows系统下安装ElasticSearch W…

KubeSphere 使用 OpenLDAP 进行统一认证完全指南

作者&#xff1a;申红磊&#xff0c;青云QingCloud 容器解决方案架构师&#xff0c;开源项目爱好者&#xff0c;KubeSphere Member。 背景 在实际使用中&#xff0c;会有一些用户&#xff0c;在不同场景中经常碰到 OpenLDAP 对接问题&#xff1a; 能否对接 LDAP&#xff1f;对…

go sync.Map源码分析

概述 go 语言中的map并不是并发安全的,在Go 1.6之前,并发读写map会导致读取到脏数据,在1.6之后则程序直接panic. 因此之前的解决方案一般都是通过引入RWMutex(读写锁)进行处理, 关于go为什么不支持map的原子操作,概况来说,对map原子操作一定程度上降低了只有并发读,或不存在并…

多线程看这一篇文章就够了

第一章 多线程概述 1 2 31. 什么是程序? 2. 什么是进程? 3. 什么是线程?程序1是为完成特定任务、用某种语言编写的一组指令的集合(一段静态的代码)进程1是程序的一次执行过程&#xff0c;或是正在运行的一个程序线程1 2 3进程可进一步细化为线程&#xff0c;是一个程序内部的…