15. 我是怎么用一个特殊 Cookie ,限制住别人的爬虫的

news2024/9/24 19:13:31

爬虫训练场,第15篇博客。
博客详细清单,参考 https://pachong.vip/blog
本次案例,用定值 Cookie 实现反爬

文章目录

    • Cookie 生成
    • Python Flask 框架生成 Cookie
    • Flask make_response 加载模板
    • Flask 判断指定 cookie 是否存在
    • 补充知识点

Cookie 生成

由于本案例需要用到一个特定的 Cookie ,所以我们需要提前将其生成,你可以直接设置一个固定的字符串,也可以使用 Python 加密模块来加密一段文本,例如本案例加密 梦想橡皮擦

下面是一个示例代码,展示了如何使用 Python 的 hashlib 模块进行加密:

import hashlib

# 要加密的文本
text = "梦想橡皮擦"

# 使用 sha256 算法进行加密
encrypted_text = hashlib.sha256(text.encode()).hexdigest()

print(encrypted_text)

在这个例子中,我们使用了 hashlib 模块中的 sha256 算法对文本进行加密。这个算法生成了一个长度为 64 位的十六进制哈希值,用于表示加密后的文本。

注意,这个算法只能用于加密文本,而不能用于解密。因此,一旦文本被加密,就无法恢复成原来的文本,即不可逆加密/单项加密。

Python Flask 框架生成 Cookie

在 Python 的 Flask 框架中,可以使用 make_response 函数和 set_cookie 方法来生成一个 Cookie。

例如,下面的代码片段展示了如何在 Flask 中设置一个名为 story 的 Cookie,并将它的值设为前文建立的加密串。

from flask import Flask, make_response

app = Flask(__name__)

@app.route('/')
def index():
    resp = make_response('Setting a cookie')
    encrypted_text = hashlib.sha256(text.encode()).hexdigest()
    resp.set_cookie('story', encrypted_text)
   
    return resp

在这个例子中,我们使用 make_response() 函数创建了一个响应对象,然后使用 set_cookie() 方法来设置 cookie。最后,我们将响应对象返回给客户端。

注意,上面的代码仅创建了一个简单的 Cookie,它只有名称和值两个部分。你还可以使用其他可选参数来设置 Cookie 的其他属性,例如过期时间、域名等。

接下来为大家在补充一下 make_response() 相关知识。

Flask make_response 加载模板

在 Flask 中,你可以使用 make_response() 函数和模板系统来生成带有模板的响应。

下面是一个示例代码,展示了如何使用 make_response() 函数加载模板:

from flask import Flask, make_response, render_template

app = Flask(__name__)

@app.route('/')
def index():
    # 加载模板并渲染
    rendered_template = render_template('index.html', title='梦想橡皮擦')
    # 使用 make_response 函数创建响应
    resp = make_response(rendered_template)
    return resp

在这个例子中,我们首先使用 Flask 的 render_template() 函数加载并渲染了名为 index.html 的模板。然后我们使用 make_response() 函数创建了一个响应对象,并将渲染后的模板作为响应的内容。最后,我们返回了这个响应对象给客户端。

注意,你需要在 Flask 应用的模板目录中存在名为 index.html 的模板文件,才能正常使用上述代码。

然后我们将该视图函数补充完整,代码在 app/routes.py 文件中。

@app.route('/')
@app.route('/index')
def index():
    item = {
        "msg": "后台传递信息"
    }
    # 访问首页生成一个 Cookie 值,该值用于访问特定页面
    rendered_template = render_template('index.html', title='梦想橡皮擦')
    resp = make_response(rendered_template)
    text = "梦想橡皮擦"

    # 使用 sha256 算法进行加密
    encrypted_text = hashlib.sha256(text.encode()).hexdigest()
    resp.set_cookie('story', encrypted_text)
    return resp

此时当我们访问爬虫训练场首页的时候,就会在 Cookie 中写入一个加密之后的字符串。
通过开发者工具,可以查看到响应头。

我是怎么用一个特殊 Cookie ,限制住别人的爬虫的

最后一步,就是在 Python Flask 框架中判断刚刚的 Cookie 值,如果存在则响应数据,否则返回 403。

Flask 判断指定 cookie 是否存在

在 Python 的 Flask 框架中,你可以使用 request.cookies 属性来判断指定的 Cookie 是否存在。

例如,下面的代码片段展示了如何判断一个名为 story 的 Cookie 是否存在:

from flask import Flask, request

app = Flask(__name__)

@app.route('/')
def index():
    if 'story' in request.cookies:
        # 如果存在 'story' cookie,则执行相应操作
        # ...
    else:
        # 如果不存在 'story' cookie,则执行相应操作
        # ...

将代码补充完整,文件是 app/antispider/index.py

@antispider.route('/cookie_demo')
def cookie_demo():
    if 'story' in request.cookies:
        # 如果存在 'story' cookie,则执行相应操作
        # ...
        return render_template("antispider/cookie_demo.html")
    else:
        return "没有权限", 403

补充知识点

在 Python 的 Flask 框架中,除了使用 set_cookie() 方法设置 cookie 以外,还有其他几种操作 cookie 的方法。

下面是一些常用的操作 cookie 的方法:

  • 设置 cookie 的值:你可以使用 set_cookie() 方法来设置 cookie 的值。例如:
from flask import Flask, make_response

app = Flask(__name__)

@app.route('/')
def index():
    resp = make_response('Setting a cookie')
    resp.set_cookie('user', 'xiangpica')
    return resp

  • 获取 cookie 的值:你可以使用 request.cookies 字典来获取 cookie 的值。例如:
from flask import Flask, request

app = Flask(__name__)

@app.route('/')
def index():
    user = request.cookies.get('user')
    return user
  • 删除 cookie:你可以使用 set_cookie() 方法并将 cookie 的过期时间设为过去的时间来删除 cookie。例如:
from flask import Flask, make_response

app = Flask(__name__)

@app.route('/')
def index():
    resp = make_response('Deleting a cookie')
    resp.set_cookie('user', '', expires=0)
    return resp

本案例到此结束,已更新到 爬虫训练场 欢迎大家访问学习。
项目同步到代码仓库 https://gitcode.net/hihell/spider_playground

📢📢📢📢📢📢
💗 你正在阅读 【梦想橡皮擦】 的博客
👍 阅读完毕,可以点点小手赞一下
🌻 发现错误,直接评论区中指正吧
📆 橡皮擦的第 812 篇原创博客

从订购之日起,案例 5 年内保证更新

  • ⭐️ Python 爬虫 120,点击订购 ⭐️
  • ⭐️ 爬虫 100 例教程,点击订购 ⭐️

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/130290.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【AcWing每日一题】4818. 奶牛大学

Farmer John 计划为奶牛们新开办一所大学! 有 N 头奶牛可能会入学。 每头奶牛最多愿意支付 ci 的学费。 Farmer John 可以设定所有奶牛入学需要支付的学费。 如果这笔学费大于一头奶牛愿意支付的最高金额,那么这头奶牛就不会入学。 Farmer John 想赚…

C++ New和Delete

目录 前言 New Delete 前言 new是c中用于动态申请空间的运算符,malloc也是用于动态申请空间的,但malloc是函数。 New new是用来开辟一段新空间的,和一般申明不同的是,new开辟的新空间是在堆上,而申明的变量是在栈上…

【自学Java】Java注释

Java注释 Java注释教程 用于注解说明解释程序的文字就是注释,注释可以提高代码的阅读性。同时,注释也是一个程序员必须要具有的良好的编程习惯。我们首先应该将自己的思想通过注释先整理出来,再用代码实现。 在 Java 语言 中,一…

(二)Qt多线程实现海康工业相机图像实时采集

系列文章目录 提示:这里是该系列文章的所有文章的目录 第一章: (一)QtOpenCV调用海康工业相机SDK示例开发 第二章: (二)Qt多线程实现海康工业相机图像实时采集 文章目录系列文章目录前言一、项目…

C语言中指针常见问题集

1. 我想声明一个指针并为它分配一些空间,但却不行。这些代码有什么问题? char *p; *p malloc(10);答:你所声明的指针是p, 而不是*p, 当你操作指针本身时你只需要使用指针的名字即可:cp malloc(10);当你操作指针指向的内存时,你才需要使用*作为间接操…

坚果的2022年终总结

人生天地之间,若白驹过隙,转眼间,这一年又快要过去了,按照惯例还是写一篇年终总结,同时也看一下自己是否又成长,是否有哪些事情没做好,给自己做一个复盘。一、缘起OpenHarmony我是从去年开始参加…

Webpack 钩子介绍、手写 Webpack Plugin

目录 1. Plugin 用作和工作原理 1.1 Plugin 的作用 1.2 Plugin 的工作原理 2. Webpack 底层逻辑和钩子介绍 2.1 Webpack 内部执行流程 2.2 Webpack 内部钩子 2.2.1 钩子是什么 2.2.2 Tapable —— 为 Webpack 提供 Plugin 钩子 数据类型接口 定义 2.2.3 Compiler Hook…

C#,图像二值化(08)——灰度图像二值化,全局算法,全局阈值优化算法及其源代码

1、全局阈值算法 基于灰度直方图的优化迭代算法之一。 Iterative Scheduler and Modified Iterative Water-Filling In the downlink, the inter-cell interference is only function of the power levels and is independent of the user scheduling decisions. This suggest…

俺的2022年

年末将至,还是要写点总结性的内容,以回顾过去一年做的各种事情。工作之外从客观数据上看,今年的收入水平略差于去年,主要是工作外的收入有所减少,其核心原因是没有录制新的课程内容进行变现,原本的计划是&a…

【自学Python】Python介绍

Python教程 什么是编程语言 编程语言(programming language),是用来定义计算机程序的形式语言。它是一种被标准化的交流技巧,用来向计算机发出指令。 也可以说,计算机语言让程序员能够准确地定义计算机所需要使用的…

拓展交流空间,分享开发精彩 | 开发者说·DTalk 鉴赏

日月其迈,岁律更新,时间的洗礼让开发者们更加坚韧,持续探索,不断追求,同样也激励着我们为开发者提供更多的帮助与支持。不断迭代的技术产品是开发者们的趁手工具,定期更新的政策助力打造安全可靠的生态&…

基础数学(4)——线性回归复习

文章目录课程回顾基础知识回归模型的建模过程一元线性回归模型线性回顾进行极大似然估计(例题(必考))极大似然估计极大似然估计的性质线性性无偏性最优性(记住即可,没有推导)方差计算一元线性回…

智能制造 | AIRIOT智慧工厂管理解决方案

工厂生产运转中,设备数量多,环境复杂、企业往往需要承担很高的维修、保养、备件和人力成本。传统的工厂改革遇到了诸多前所未有的挑战: 1、管理系统较多,数据隔离,系统集成困难重重; 2、大量老旧设备无法联…

QT使用log4cpp日志库

文章目录QT使用log4cpp日志库1. 从官网下载log4cpp源码2. 编译项目3. 在QT中使用log4cpp4. log4cpp4.1. Category4.2. Appender4.3. Layout4.4. Priority4.5. 使用宏定义为日志加上文件名 函数名 行号等QT使用log4cpp日志库 1. 从官网下载log4cpp源码 log4cpp官方网址 下载后…

MyBatisPlus ---- 常用注解

MyBatisPlus ---- 常用注解1. TableNamea>问题b>通过TableName解决问题c>通过全局配置解决问题2. Tablelda>问题b>通过TableId解决问题c>TableId的value属性d>TableId的type属性e>雪花算法3. TableFielda>情况1b>情况24. TableLogica>逻辑删除…

LeetCodeday03

203.移除链表元素 给你一个链表的头节点 head 和一个整数 val ,请你删除链表中所有满足 Node.val val 的节点,并返回 新的头节点 。 示例 1: 输入:head [1,2,6,3,4,5,6], val 6 输出:[1,2,3,4,5] 示例 2&#xff1…

基于springboot+mybatis+mysql+html实现医院预约挂号管理系统

基于springbootmybatismysqlhtml实现医院预约挂号管理系统一、系统简介二、系统主要功能界面2.1登陆2.2首页(留言板、我的预约)--用户2.3就诊预约--用户2.4我的预约--用户2.5我参与的评介--用户2.6我的预约日程--医生2.7对我的评介--医生2.8医生管理--管…

一文探索“预训练”的奥秘!

Datawhale干货 作者:王奥迪,单位:中国移动云能力中心2022年下半年开始,涌现出一大批“大模型”的优秀应用,其中比较出圈的当属AI作画与ChatGPT,刷爆了各类社交平台,其让人惊艳的效果&#xff0c…

[思维模式-19]:《复盘》-7- “积”篇 - 操作复盘- 如何做好复盘

目录 一、联想:复盘的五个误区与七个关键成功要素 1.1 五个误区 1.2 七个关键成功要素 二、复盘的25个“坑”及对策建议 2.1 回顾、评估阶段 2.2 分析、反思阶段 2.3 萃取、提炼阶段 2.4 转化、应用阶段 2.5 复盘引导阶段 三、有效复盘的三项核心技能 3.…

java常见问题处理

文章目录一、前言二、实战演练1、idea常用快捷键使用2、idea设置字体大小3、idea设置背景颜色-背景4、idea配置Maven5、idea中配置JDK6、idea中java.util变红报错IDEA中Sources、JavaDocs路径是红色的7、idea中使用mybatisPlus 自增主键失效,自增主键超大小知识点8、…