14. UserAgent 反爬是如何实现的,来看看这篇博客

news2025/1/15 6:23:19

本篇博客实现 【爬虫训练场】 的第一个反爬案例,User-Agent 反爬。

文章目录

    • 什么是 User-Agent 反爬
    • 在 Python Flask 中实现 User-Agent 反爬

什么是 User-Agent 反爬

User-Agent 反爬是一种防止网站被爬虫爬取的技术。

当爬虫向网站发送 HTTP 请求时,会在请求头中包含一个名为 “User-Agent” 的字段,该字段用于告知网站服务器请求来自哪种浏览器或爬虫。网站服务器可以通过检查这个字段来判断请求是由真实的浏览器发起的,还是由爬虫发起的。

如果服务器发现请求中的 User-Agent 字段不是某种常见浏览器的名称,就可能认为请求来自爬虫,并返回一个错误响应或拒绝请求。这就是 User-Agent 反爬的原理。

为了避免被 User-Agent 反爬,爬虫可以在发送请求时将 User-Agent 字段设置为某种常见浏览器的名称,从而使得服务器将请求识别为来自真实浏览器的请求。但这并不意味着爬虫可以随意爬取网站的内容,网站仍然可以使用其他手段来防止爬虫的滥用。

User-Agent 反爬是一种常用的反爬技术,但它并不是唯一的反爬手段。网站还可以使用其他技术来防止爬虫的滥用,例如:

  • IP 限制:网站可以将访问权限限制在特定的 IP 地址范围内,从而拒绝来自其他 IP 地址的请求。
  • 图形验证码:网站可以在用户提交表单之前要求输入图形验证码,以防止爬虫自动提交表单。
  • 反抓取:网站可以使用 JavaScript 或其他技术动态生成网页内容,从而防止爬虫直接抓取网页源代码。
  • 限制请求频率:网站可以限制爬虫每小时发送的请求数量,以避免爬虫对服务器造成过大负荷。

这些手段,在之后的爬虫训练场中都会涉及。

咱们本篇博客要在 Python Flask 中实现 User-Agent 反爬。

在 Python Flask 中实现 User-Agent 反爬

方法如下,按照步骤操作即可。

  1. 在 Flask 程序中使用 @app.before_request 装饰器,指定一个函数来处理所有的请求,在该函数中检查请求头中的 User-Agent 字段。

  2. 获取 User-Agent 字段的值,在 app 目录中建立 antispider 文件夹,然后新增 index.html 文件,输入如下内容。

{% extends "base.html" %}
{% block content %}

<div class="container text-center pt-5">
    <h3>寓言故事:最可爱的孩子</h3>
    <div>
        <p>有一个人在外地做事,托他的一位同乡带一件精巧又昂贵的玩具回家。</p>
        <p>同乡问:“这东西带给谁呢?”</p>
        <p>这个人认为自己的儿子长得伶俐聪明,是全村最可爱的孩子,就得意地说:“带给我们村里最可爱的孩子。”</p>
        <p>同乡点点头,拿起东西走了。</p>
        <p>过了几个月,这人回到家里,知道他的儿子并没有收到同乡带回来的玩具,便跑去问那个同乡:</p>
        <p>“我托你带的玩具,怎么没有带给我的儿子?”</p>
        <p>那同乡说:“你不是说带给全村最可爱的孩子吗?我认为我的儿子是全村最可爱的孩子,所以把玩具给了我的孩子啦!”</p>
    </div>
</div>

{% endblock %}

  1. check_user_agent() 函数中,对 user_agent 进行判断,如果是某种常见浏览器的名称,则允许请求通过,否则返回一个错误响应。例如:
from flask import Blueprint, jsonify, request
from flask import render_template

antispider = Blueprint('antispider', __name__, url_prefix='/as')

@antispider.before_request
def check_user_agent():
    user_agent = request.headers.get("User-Agent")
    print(user_agent)
    if "Mozilla" in user_agent:
        # 允许请求通过
        return None
    else:
        return "错误请求",403

注意:以上代码仅供参考,并不能保证能够完全防止爬虫的滥用。网站的反爬措施应该根据实际情况进行调整,以便最大程度地保护网站的服务器和数据安全。

还有 @app.before_request 装饰器是 Flask 框架中的一种特殊装饰器,用于在处理每一个请求之前执行特定的代码。

使用 @app.before_request装饰器的方法如下:

  • 在 Flask 程序中定义一个函数,该函数将在处理每一个请求之前被执行。
  • 在函数定义的上方使用 @app.before_request 装饰器,并将函数名作为参数传递给装饰器。

为了更好地实现 User-Agent 反爬,可以进一步完善上述代码,例如:

  • check_user_agent() 函数中,不仅要判断 User-Agent 是否是某种常见浏览器的名称,还要判断是否是一些常见爬虫的名称。这样,当爬虫伪装成某种浏览器时,也可以被检测出来。

  • 使用黑名单或白名单的方式,来指定哪些 User-Agent 是可以接受的,哪些是不可以接受的。例如,使用黑名单的方式,指定一个包含不可接受 User-Agent 的列表,然后在 check_user_agent() 函数中遍历该列表,如果 User-Agent 在该列表中,则返回错误响应;否则,允许请求通过。

此时如果希望运行我们的项目,还需要继续补齐 antispider/index.py 文件,添加视图相关函数。

@antispider.route('/show')
def index():
    return render_template("antispider/ua_show.html")


@antispider.route('/error403')
def error403():
    return "缺少关键参数", 403

注册蓝图之后,通过浏览器访问,正常情况得到如下界面。

14. UserAgent 反爬是如何实现的,来看看这篇博客 &

最后就可以测试请求头中,如果没有 user-agent 参数,是否还能得到正确数据。

import requests

res = requests.get('http://pachong.vip/as/show', allow_redirects=False)
print(res.request.headers)
print(res.text)

📢📢📢📢📢📢
💗 你正在阅读 【梦想橡皮擦】 的博客
👍 阅读完毕,可以点点小手赞一下
🌻 发现错误,直接评论区中指正吧
📆 橡皮擦的第 811 篇原创博客

从订购之日起,案例 5 年内保证更新

  • ⭐️ Python 爬虫 120,点击订购 ⭐️
  • ⭐️ 爬虫 100 例教程,点击订购 ⭐️

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/124743.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

初识Kubernetes:(3)Kubernetes资源管理

初识Kubernetes&#xff1a;&#xff08;3&#xff09;Kubernetes资源管理1 资源管理介绍2 YAML语法介绍2.1 YAML语法介绍2.2 YAML语法示例2.2.1 YAML常量2.2.2 对象2.2.3 数组3 资源管理方式3.1 资源管理方式3.2 命令式对象管理3.2.1 kubectl命令3.2.2 操作&#xff08;comman…

操作系统期末考试必会题库2——进程管理

1、某系统出现故障&#xff0c;通过相关指令查看&#xff0c;CPU占有率为0&#xff0c;内存有大量空余&#xff0c;但是用户在其程序中得不到任何相应&#xff0c;请从进程状态分析&#xff0c;当前用户所使用的进程可能是什么状态&#xff08;就绪&#xff0c;运行&#xff0c…

BLE 蓝牙抓包分析

1. 抓包工具 Ellisys & Ellisys Bluetooth Analyzer ​使用方法&#xff1a;https://blog.csdn.net/weixin_44260005/article/details/121216529​ 2. BLE数据样式 3. 数据分析 3.1 ble蓝牙协议栈 3.2 BLE连接过程 http://doc.iotxx.com/BLE%E6%8A%80%E6%9C%AF%E6%8F%AD%…

如何用Alluxio加速云上深度学习训练?

欢迎来到【微直播间】&#xff0c;2min纵览大咖观点 随着企业数据量的不断增加&#xff0c;为了提高深度学习训练的准确性、加快速度并且降低成本&#xff0c;许多企业开始逐步在云上实施分布式训练的方案&#xff0c;本期内容将结合阿里、微软等实际应用案例&#xff0c;分享…

容器安装mysql

1.自己配置仓库和挂载 仓库内容如下 挂载 2.安装工具包 yum install -y yum-utils 3.从阿里云添加docker仓库 yum-config-manager --add-repo https://mirrors.aliyun.com/docker-ce/linux/centos/docker-ce.repo 我们就能查看到 4.cd回主目录开始一系列安装 yum install d…

软件测评师教程之软件测试基础<一>更新中...

目录一.软件测试分类(1)按照开发阶段划分(2)按照测试实施组织划分(3)按照测试技术划分二.软件测试过程模型(1)V模型(2)W模型(3)H模型(4)X模型(5)前置测试模型(6)测试模型的使用三.软件测试策略(1)测试信息流(2)分析设计阶段1.需求说明书评测2.概要设计说明书评测3.详细设计说明…

手绘图说电子元器件-控制与保护器件

控制与保护器件主要包括继电器、开关、接插件和保险器件等,是电子电路中经常使用的器件。 继电器 继电器是一种常用的控制器件,它可以用较小的电流来控制较大的电流,用低电压来控制高电压,用直流电来控制交流电等,并且可实现控制电路与被控电路之间的完全隔离。 继电…

IPV6探测

目录本机是否支持IPv6如何确认一个网站是否开启 IPv6在线工具&#xff1a;IP查询在线工具&#xff1a;IPv6连接测试在线工具&#xff1a;国家IPv6发展监测平台本地工具局域网设备探测pingMSFThc-Ipv6Ipv6-Toolkit端口探测MSFNmap【存在问题】参考领导提了个问题&#xff0c;怎么…

Mybatis 解析mapper过程

Mapper配置的四种方式 配置方法一共有四种&#xff0c; 分别对应四种解析方式&#xff0c;从解析源码可以看出来 private void mapperElement(XNode parent) throws Exception { //添加接口映射器if (parent ! null) {for (XNode child : parent.getChildren()) { //获取所有…

4.7W防削顶单声道D类音频功率放大器HT6872介绍

HT6872简介 HT6872是一款低EMI&#xff0c;防削顶失真&#xff0c;单声道免滤波D类音频功率放大器。在6.5V电源&#xff0c;10%THDN&#xff0c;4Ω负载条件下&#xff0c;输出4.71W功率&#xff0c;在各类音频终端应用中维持高效率并提供AB类放大器的性能。 HT6872的最大特点是…

C++:设计一个保留字(或关键字)的统计程序,从源数据文件(C或C++语言程序)中,读取字符或字符串,与保留字文件中的保留字进行匹配比较,并统计计数。

2.1题目&#xff1a; 设计一个保留字&#xff08;或关键字&#xff09;的统计程序 l建立保留字文件&#xff1b; l从源数据文件&#xff08;C或C语言程序&#xff09;中&#xff0c;读取字符或字符串&#xff0c;与保留字文件中的保留字进行匹配比较&#xff0c;并统计计数。…

python数据分析(1)numpy基础

iamseancheney/python_for_data_analysis_2nd_chinese_version: 《利用Python进行数据分析第2版》 (github.com) NumPy的ndarray&#xff1a;一种多维数组对象 1.性质 NumPy最重要的一个特点就是其N维数组对象&#xff08;即ndarray&#xff09;&#xff0c;该对象是一个快速…

73.qt quick-通用可拖拽表盘示例

截图如下所示: 效果如下所示: 源码已上传至专栏群(第一章底部获取)中,感兴趣的自行下载 demo使用介绍 控件自定义属性已经封装出来了,如下图所示: main.qml如下所示: import QtQuick 2.14 import QtQuick.Window 2.14 import QtQuick.Extras 1.4 import QtQuick.Layouts 1.1…

微信小程序-会议OA项目03

目录 1.Flex布局简介 1.1 什么是flex布局 1.2 flex属性 2.轮播图--组件的使用 3.会议OA项目-首页 1.Flex布局简介 布局的传统解决方案&#xff0c;基于盒状模型&#xff0c;依赖 display属性 position属性 float属性 1.1 什么是flex布局 1) Flex是Flexible Box的缩写&…

攻防世界-fileclude

题目 访问题目场景 阅读php代码 <?php include("flag.php"); highlight_file(__FILE__); if(isset($_GET["file1"]) && isset($_GET["file2"])) {$file1 $_GET["file1"];$file2 $_GET["file2"];if(!empty($f…

法国半导体制造企业RIBER部署MBE技术以支持量子计算

图片来源&#xff1a;网络 法国半导体制造企业RIBER在2022年进一步提升了其在量子处理器耗材市场的发展水平。 早在2021年6月&#xff0c;RIBER已开始部署系统&#xff0c;它在法国图卢兹与 法国国家科学研究中心系统分析与架构实验室&#xff08;LAAS-CNRS&#xff09;创办联合…

Google Guice 1:如何实现依赖注入?

1. 待完善的邮箱程序 1.1 手动注入依赖 前一篇博文《谈谈自己对依赖注入的理解》&#xff0c;笔者只是基于依赖注入的思想&#xff0c;为EmailClient预留了依赖注入的入口 到目前为止&#xff0c;我们只是让dependent class预留了依赖注入的入口&#xff0c;要想实现依赖的自动…

TOPLAS‘07: Effective Field-Sensitive Pointer Analysis for C 字段敏感C程序指针分析

文章目录1. 集合约束式的指针分析1.1 基本介绍1.2 求解约束1.2.1 图传播1.2.2 迭代顺序1.2.3 节点替换 (Variable Subsititution)1.2.4 传递化简 (Transitive Reduction)1.2.5 集合的表示1.2.6 差分传播1.2.7 相同解的集合2. 扩展约束模型2.1 简介2.2 处理函数指针2.3 处理字段…

NNOM第一个模型实例

目录 一、keras开发环境搭建 二、安装visual studio 2019 1. 下载安装 2. 配置使用MSVC编译器 三、编译第一个NNOM的demo 1. 下载源码 2. 安装依赖库 3. 编译auto_test 四、移植 1. 新建新的VS项目 2. 拷贝相关源码 3. 配置工程 4. 编译并运行 一、keras开发环境搭…

Java并发——线程池

线程池 一、线程池的作用 线程的创建和销毁需要占用CPU资源&#xff0c;若频繁的进行创建和销毁会产生很大的开销&#xff0c;影响性能和系统稳定性。 线程池的优点&#xff1a; 线程池可以保存创建好的线程随用随取&#xff0c;降低资源消耗&#xff08;重复利用线程池中的…