Redis学习笔记:缓存运用常见问题

news2024/10/2 1:25:39

这是本人学习的总结,主要学习资料如下

  • 马士兵教育

目录

  • 1、数据一致性的问题
    • 1.1、新增数据一致性的问题
    • 1.2、修改/删除一致性问题
      • 1.2.1、操作分析
      • 1.2.1、总结和再深入
  • 2、缓存穿透,缓存击穿和缓存雪崩
    • 2.1、缓存穿透(查不到)
      • 2.1.1、 解决方式
    • 2.2、缓存击穿(过期没找到)
      • 2.2.1、解决方法
    • 2.3、缓存雪崩
      • 2.3.1、解决方式
  • 3、数据倾斜
    • 3.1、热点key
      • 3.1.1、什么是热点key
      • 3.1.2、发现热点key
      • 3.1.3、解决热点Key
    • 3.2、bigKey
      • 3.2.1、什么是bigKey
      • 3.2.2、发现热点key
      • 3.2.3、解决bigKey

1、数据一致性的问题

1.1、新增数据一致性的问题

所谓新增数据一致性的问题就是,新增数据时,缓存和数据库都要存数据,有一方失败一方成功导致的数据不一致的问题。

这种情况一般不用担心,如果真的很担心那可以在存数据前加一个消息中间件,让缓存和数据库消费这个中间件。因为中间件消费失败了会多次尝试,这就可以解决不一致的问题。
请添加图片描述



1.2、修改/删除一致性问题

1.2.1、操作分析

在涉及到缓存和数据库的修改和删除时,根据操作先后也就分为四种情况。

  • 先更新缓存,后更新数据库。
  • 先删除缓存,后更新数据库。
  • 先更新数据库,后更新缓存。
  • 先更新数据库,后删除缓存。

下面就逐一分析其可行性。

  1. 先更新缓存, 后更新数据库。
    线程A和线程B并发更新数据,线程A先更新,线程B后更新。按照预期,因为线程B后更新那么最后结果应该以线程B的为准。
    但如果线程A更新缓存后,还没来得及更新数据库时,线程B就把缓存和数据库更新好了,之后线程A才继续更新数据库,那这时候就出现缓存是最新数据而数据库是旧数据的情况,缓存不一致出现。
    下图是流程图,左边是正常情况,右边是不一致的情况。
    请添加图片描述



  1. 先删除缓存, 后更新数据库
    线程A删除缓存后,还没来得及更新数据库时,线程B查询数据。
    一般线程B现在缓存查数据,查不到,转而查数据库,但这时线程A还没更新好,于是线程B拿到的是旧数据。
    现成B拿到旧数据后会顺便把旧数据更新到缓存中,于是现在就出现数据库时新数据,而缓存是旧数据的不一致。
    在这里插入图片描述

  1. 更新数据库,后更新缓存
    线程A和线程B并发更新数据,线程A先更新,线程B后更新。按照预期,因为线程B后更新那么最后结果应该以线程B的为准。
    但如果线程A更新数据库后还没来得及更新缓存,线程B已经更新了数据库和缓存,那么现在数据库就是数据库是最新数据,而缓存是旧数据的不一致情况。
    在这里插入图片描述

  2. 先更新数据库,后删除缓存
    特殊情况就是,在线程A更新数据库之前,线程B来查数据,并且缓存因为各种原因正好没数据,所以B就去数据库查数据。
    这里B拿到的是旧数据,之后A更新数据库完成,B就拿着旧数据回填到缓存中。但是A会删除缓存,这样别的线程再来查数据就会因为缓存没数据去数据库拿最新的数据回填到缓存中。这样就避免了数据不一致的情况。

    并且为了防止线程B拿到数据库旧数据后,在线程A第二次删缓存后才将旧数据回填到缓存造成数据库是新数据,缓存是旧数据的不一致,线程A更新完数据库后还睡眠一段时间,然后才删除缓存。这样就能保证第二次删除缓存发生在在线程B插入缓存之后。

在这里插入图片描述
教程里提到需要延迟双删,即在这个基础上,在线程A更新数据库前也删除一次缓存,加上更新后的删除,总共两次删除,所以叫延迟双删。

不过我自己觉得第一次删除没必要,似乎只有后一次删除也能避免数据不一致。


1.2.1、总结和再深入

所以面对修改/删除的一致性问题,最好的方法是先更新数据库,后删除缓存,并且有需要的话可以延时删除缓存。

还有两种加强的方式,都是在延时这里做文章。

第一种是线程A更新数据库以后将删除缓存的操作放到延迟消息队列中,这样可以避免缓存删除失败的风险,同时也让线程A更新完数据库后不必再睡眠,可以抽身做其他的事。这种方式唯一的缺点是增加了系统的复杂度。

另一种方式是数据库插入后会更新一种叫binlog的东西,我们让一个线程订阅binlog的发布,然后消费发布信息删除缓存。这种方式的缺点是获取binlog会引起I/O,效率不是很高。



2、缓存穿透,缓存击穿和缓存雪崩

2.1、缓存穿透(查不到)

一般的模型当中,一次查询会优先到redis中查询,如果没有查询到才进行mysql查询。但如果mysql中也没有对应数据,那这两次查询就无功而返。

在这里插入图片描述
一般情况下以上查询没什么问题。但在高并发的场景下,如果有大量请求想查询同一字段,而这一字段又不存在,那就会在短时间内进行大量的mysql查询,造成数据库崩溃,这就是缓存穿透。


2.1.1、 解决方式

  1. 第一种是设空值。在redis中设空值,第一次在数据库中没查到数据就设一个空值在redis。这样的相同查询就在redis中查到空值就返回结束,不用麻烦数据库。

    等到以后真正有了值,数据库会更新到缓存中。

  2. 布隆过滤器。布隆过滤器可以快速判定一个元素不在集合中。如果在查询前加入布隆过滤器,布隆过滤器里的数据和数据库同步。当查询查不存在的元素布隆过滤器直接处理,不用麻烦到数据库和缓存。
    在这里插入图片描述


2.2、缓存击穿(过期没找到)

redis缓存中设置的值总是有过期时间,如果有一个超热点在失效的那一刻迎来了大量的请求,这些请求发现redis里没有数据,就会转到mysql中查询。

数据从mysql中取出,重新存到redis中有个时间差,在这个时间差内的所有请求都会查询mysql,那mysql就有可能承受不住压力崩溃。这就是缓存击穿。

2.2.1、解决方法

缓存击穿的核心问题是查数据库返回值设到redis中有时间差,这段时间对同一个值有大量查询。

那我们可以给关于这个值的查询加一个锁,只要有一个线程去查询数据库就够了。伪代码如下。

public String getValue(String key) {
	String value = redis.get(key);
	//为空则需要加锁查询
	if(value == null) {
		// 如果返回1,则成功获取锁
		if(redis.setnx(hash(key), 60) == 1) {
			String value = db.getValue(key);
			redis.set(key, value);
			return value;
		}	else {
			// 不成功则休眠一段时间再获取值试试
			Thread.sleep(60);
			return getValue(key);
		}
	}	else{
		return value;
	}
}

2.3、缓存雪崩

指某一时间段内,缓存集中过期,或者redis宕机,大量请求在redis中得到不到数据就转向数据库中查询,导致数据库崩溃。

2.3.1、解决方式

第一当然是依靠集群哨兵的故障恢复,一个节点挂了,就需要故障恢复启用其他节点接替工作。

另外还有下面几种做法。

  1. 避免设置统一过期时间。缓存的过期时间不要太集中。
  2. 功能降级。比如双十一期间一些不重要的功能可以暂停,避免查询过多。

3、数据倾斜

3.1、热点key

3.1.1、什么是热点key

比如微博里经常出现一些热点事件,明星结婚之类的,导致微博突然崩溃。

这是因为大厂往往用redis的集群作缓存,一个话题就存在一个节点中。一个话题如果过热就引起大量查询,导致某一节点压力突然变大直接崩溃。

这就是热点key导致的数据倾斜。


3.1.2、发现热点key

一般有四个方法,每个方法都不完美,只能根据实际情况甄选。

他们分别是客户端监控,monitorhotkeysTCP抓包。

  1. 第一个是在客户端监控每一个key,查询一次就+1,如果查询一定时间内超过一定的阈值就上报或者其他处理。

这种方式实现很简单,缺点也很明显,就是代码侵入性,客户端的代码不得不增加不应该有的内容,而且监控每一个key也是不小的负担。


  1. 第二个是用redis命令monitor,输入这个指令后相当于订阅了redis的一个服务,当有命令执行时就会收到命令的解析。
    比如下面的示例。
127.0.0.1:6900> monitor
OK
1677459065.262425 [0 127.0.0.1:54894] "set" "aaaa" "v1"

使用这种方法就意味着需要额外的开销去存储这些日志并解析,数据量大的时候开销就很大。



  1. 4.0.3以后,reids推出了hotKeys命令专门用于统计热点。具体示例如下。

首先先大量读取某一个key,多执行几次set命令即可,然后执行redis-cli --hotkeys命令获取热点。

MacBook-Pro:etc user$ redis-cli --hotkeys

# Scanning the entire keyspace to find hot keys as well as
# average sizes per key type.  You can use -i 0.1 to sleep 0.1 sec
# per 100 SCAN commands (not usually needed).

Error: ERR An LFU maxmemory policy is not selected, access frequency not tracked. Please note that when switching between policies at runtime LRU and LFU data will take some time to adjust.

上面是常见的错误,因为redis是基于LFU的内存淘汰策略,所以要先开启策略选项才能使用hotkyes的功能。

127.0.0.1:6379> config set maxmemory-policy volatile-lfu
OK

然后可以使用hotkeys命令了,可以看到,它统计出k1这个key短时间内有6次查询。

MacBook-Pro:etc user$ redis-cli --hotkeys

# Scanning the entire keyspace to find hot keys as well as
# average sizes per key type.  You can use -i 0.1 to sleep 0.1 sec
# per 100 SCAN commands (not usually needed).

[00.00%] Hot key 'k1' found so far with counter 6

-------- summary -------

Sampled 3 keys in the keyspace!
hot key found with counter: 6	keyname: k1

这个方法的问题是,hotkeys是一个全局命令,他需要扫描所有的key,这同样是个不小的开销。

  1. 最后一种方法比较高级,就是抓reidsTCP的包然后解析。常用的插件是ELK packetbeat,这个的麻烦点是维护成本高,且有丢包的风险



3.1.3、解决热点Key

  1. 使用二级缓存,比如Guava-cachehcacheJVM对象内存等。将热点数据存到内存中,这样就不用访问redis,减轻redis的压力。
  2. key分散。我们的key可以分成很多子key,当然子key不是乱命名的。这些子key需要均匀地落到集群的每一个节点,这样热点数据存储压力就分散了。



3.2、bigKey

3.2.1、什么是bigKey

bigKey是指单个key车占用的存储空间过大。String类型的一般是value过大,一般超过10kb就算bigKey了。

String类型的就是集合,Hash,列表。他们的大体现在里面的元素过多。

他们的危害也比较明显,体积过大让存取都消耗较大 ,无论是空间复杂度还是时间复杂度都不友好。

  1. 造成单节点内存空间使用不均匀。
  2. Redis执行命令时,遇到该类型的key耗时较多。
  3. 网络传输这种key容易造成拥堵。

3.2.2、发现热点key

  1. redis自带命令:我们先设一个比较大的值
127.0.0.1:6379> set k1 dfnoqihudygouvhqihbghdsuygqfhsdgoiuqgt7687uhvit6871ygh2bdyf71tuidgbhgsft7681ghb23ysdf687iu1gb2jhodgyt67879u1bjdhuog8f6712uh3bnkhguoidt78f61723hbnkgdoyv8t7982uh3nbjhulos867tfy892u3hjbjlhoua78ft2e
OK

然后可以使用redis自带的命令redis-cli --bigkeys

MacBook-Pro:etc $ redis-cli --bigkeys

# Scanning the entire keyspace to find biggest keys as well as
# average sizes per key type.  You can use -i 0.1 to sleep 0.1 sec
# per 100 SCAN commands (not usually needed).

[00.00%] Biggest string found so far 'k2' with 2 bytes
[00.00%] Biggest string found so far 'name' with 3 bytes
[00.00%] Biggest string found so far 'k1' with 194 bytes

-------- summary -------

Sampled 3 keys in the keyspace!
Total key length in bytes is 8 (avg len 2.67)

Biggest string found 'k1' has 194 bytes

0 lists with 0 items (00.00% of keys, avg size 0.00)
0 hashs with 0 fields (00.00% of keys, avg size 0.00)
3 strings with 199 bytes (100.00% of keys, avg size 66.33)
0 streams with 0 entries (00.00% of keys, avg size 0.00)
0 sets with 0 members (00.00% of keys, avg size 0.00)
0 zsets with 0 members (00.00% of keys, avg size 0.00)

这种方式是全局命令,在有大量key的生产环境需要谨慎使用。



  1. 使用debug命令:使用debug object k1可以得到k1这个单个key的信息。那么我们就可以一批一批地过一遍所有的key找到bigkey
127.0.0.1:6379> debug object k1
Value at:0x600002554020 refcount:1 encoding:raw serializedlength:196 lru:10373635 lru_seconds_idle:6214367

关于遍历这个命令,遍历的操作可以使用scan命令来完成。

scan cursor [MATCH pattern] [COUNT count] , 可以像分页一样地一页一页的遍历所有元素。这种遍历方式不一定能完全遍历所有的key,当遍历时有新数据插入就可能遍历不到。不过能遍历到绝大部分的元素,用来寻找bigKey还是很可靠的。

  • scan,关键字。
  • cursor,下标,可以理解成元素的下标,访问第一页的元素时cursor=0
  • [MATCH match],可以省略,通配符匹配。
  • [COUNT count],每页返回的元素个数。这个不能保证每页都返回这个数目,只能保证尽量接近。
    下面是例子 ,总共遍历30个元素。方法的第一个返回值是下一页元素的下标,范围下一页时cursor要等于这个值。第二个返回值才是这一页的keyscan是循环遍历,遍历到最后一页下一页就是第一页。
127.0.0.1:6379> scan 0 count 10
1) "26"
2)  1) "k19"
    2) "k2"
    3) "k5"
    4) "k11"
    5) "k13"
    6) "k3"
    7) "k10"
    8) "k30"
    9) "k26"
   10) "k24"
127.0.0.1:6379> scan 26 count 10
1) "3"
2)  1) "k23"
    2) "k20"
    3) "k1"
    4) "k28"
    5) "k25"
    6) "k9"
    7) "k8"
    8) "k12"
    9) "k14"
   10) "k22"
   11) "k18"
   12) "k16"
127.0.0.1:6379> scan 3 count 10
1) "0"
2) 1) "k27"
   2) "k29"
   3) "k4"
   4) "k15"
   5) "k21"
   6) "k6"
   7) "k17"
   8) "k7"



3.2.3、解决bigKey

拆分,将bigkey拆分成多个子Key,使这些子Key均匀地分布到各个子节点。



本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/380490.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

从功能到自动化,熬夜3天整理出这一份2000字学习指南~

学习自动化这个想法,其实自己在心里已经琢磨了很久,就是一直没付诸实践,觉得现在手工测试已经能满足当前的工作需要,不想浪费时间去学习新的东西,有点时间还不如刷刷视频、看看小说等。 第一次有学习Selenium的冲动是…

【Bio】碳水化合物 carbohydrate 和糖蛋白 glycoprotein

文章目录碳水化合物 carbohydrate单糖 monosaccharides戊糖 pentose己糖 hexose双糖 disaccharide寡糖 oligosaccharide 和多糖 polysaccharide糖蛋白 glycoproteinRef碳水化合物 carbohydrate 碳水化合物 (carbohydrate),也是糖类,指的是一系列多羟基 …

pwnlab通关流程

pwnlab通关 关于文件包含,环境变量劫持的一个靶场 信息收集 靶机ip:192.168.112.133 开放端口 根据开放的端口信息决定从80web端口入手 目录信息 在images和upload路径存在目录遍历,config.php被渲染无法查看,upload.php需…

C++实现文本界面英语词典

C实现文本界面英语词典 C实现文本界面的英语词典,能在Dev-C运行。提供两种方案:一是简单仅查词功能;二是具有查词、添加、删除功能,具有选择菜单,值得一提的是,本程序对用户输入菜单选项序号做了检测&#…

Zabbix“专家坐诊”第183期问答汇总

问题一 Q:老师,请问一下zabbix采集的数据怎么过滤,获取数据是nottime20:30 notafter3,怎么过滤出netafter3 ?谢谢。 A:过滤器设置如下图。 问题二 Q:大佬,请问一下被管节点部署了…

视觉Slam十四讲笔记

视觉SLAM十四讲 ch1~2 虚拟机部分指令解析在其他文件中进行引用该库编译器参考链接:虚拟机部分 CMakeList.txt文件是cmake用来生成Makefile文件需要的一个描述编译链接的规则文件 指令解析 (1)PROJECT(projectname [CXX] [C] [Java]): 该…

力扣(LeetCode)427. 建立四叉树(2023.03.01)

给你一个 n * n 矩阵 grid ,矩阵由若干 0 和 1 组成。请你用四叉树表示该矩阵 grid 。 你需要返回能表示矩阵的 四叉树 的根结点。 注意,当 isLeaf 为 False 时,你可以把 True 或者 False 赋值给节点,两种值都会被判题机制 接受…

Elasticsearch进阶之(核心概念、系统架构、路由计算、倒排索引、分词、Kibana)

Elasticsearch进阶之(核心概念、系统架构、路由计算、倒排索引、分词、Kibana) 1、核心概念: 1.1、索引(Index) 一个索引就是一个拥有几分相似特征的文档的集合。比如说,你可以有一个客户数据的索引&…

能源消耗监测管理系统,在建筑节能中起到哪些重要作用?

能源是一切活动的基础更是社会经济发展的命脉,但随着经济的建设,能源资源的消耗也越来越大,其中建筑是最大的消耗者。水、电、气等能源的消耗量逐年增长,这种能源并不是取之不尽用之不竭的,能源的日益紧张和环境恶化&a…

IM即时通讯开发MQ消息队列

消息是互联网信息的一种表现形式,是人利用计算机进行信息传递的有效载体,比如即时通讯网坛友最熟悉的即时通讯消息就是其具体的表现形式之一。 消息从发送者到接收者的典型传递方式有两种: 1)一种我们可以称为即时消息&#xff1a…

【FATE联邦学习】Fateboard的使用

fateboard文档 https://fate.fedai.org/fateboard/ github Fateboard文档 https://github.com/FederatedAI/FATE-Board/blob/master/README-CN.md 背景 Fateboard是FATE框架的任务看板。 在配置FATE时,Fateboard一般是被安装好了的,安装过程查看这里 A…

你知道如何获取全国省市街道区域信息吗?

随着互联网和快递行业的飞速发展,在中国广袤的大地上,全国行政区域规划星罗棋布,要查询一个行政单元如果不运用科技的手段查询可是非常的不易,现在,全国行政区划查询API的作用越来越大,它可以帮助我们对地址…

比特数据结构与算法(第四章_下)二叉树OJ(力扣:144,965,104,226,100,572)

144. 二叉树的前序遍历难度简单给你二叉树的根节点 root ,返回它节点值的 前序 遍历。示例 1:输入:root [1,null,2,3]输出:[1,2,3]示例 2:输入:root [ ]输出:[ ]示例 3:输入&#…

【react】react18的学习

一、安装 $ create-react-app [Project name]默认支持sass 二、核心依赖 react:react 核心 react-dom:用于开发渲染web 应用; react-scripts:封装webpack服务; "start": "react-scripts start&quo…

网络应用之html 的基本结构

html 的基本结构学习目标能够写出html的基本结构1. 结构代码<!DOCTYPE html><html><head><metacharset"UTF-8"><title>网页标题</title></head><body>网页显示内容</body></html>第一行<!DOCTYPE ht…

认识Cesium旋转大小变量

前文代码中有如下&#xff1b;矩阵乘以旋转大小&#xff0c;还放入mat&#xff1b; Cesium.Matrix4.multiply(mat, rotationX, mat); 初看以为rotationX是一个数值&#xff0c;因为矩阵可以和数相乘&#xff1b; 但是看它的代码&#xff0c;rotationX是由一长串代码获得的&a…

计算机网络高频知识点(二)

目录 一、三次握手 二、为什么是三次握手而不是两次握手 三、四次挥手 四、挥手为什么需要四次 五、websocket 1、是什么 2、原理 3、websocket与http的关系 4、特点 六、http结构 七、HTTP头都有哪些字段 八、http1.0和http1.1&#xff0c;还有http2有什么区别 九…

同样做软件测试,和月薪30K 的学弟聊了一晚上,我心态崩了...

过去的一年&#xff0c;你攒到钱了吗&#xff1f; 在一条话题为“今年你存了多少钱”的微博下&#xff0c;网友们贡献了近 3000 条“成绩单”&#xff0c;大多数称自己没攒到钱&#xff0c;甚至负债累累。 攒钱&#xff0c;为什么就这么难呢&#xff1f; 工资水平赶不上房价…

TDengine | 03 | TDengine2.4.0监控部署

1 前提条件 1.1 服务 TDengine 集群已经部署并正常运行taosAdapter 已经安装并正常运行TDengine 集群 REST API 地址&#xff0c;如&#xff1a;http://tdengine:6041TDengine 集群认证信息&#xff0c;做监控用的用户名和密码 1.2 版本 Linux : Ubuntu 18.04.5 LTS TDengi…

MySQL主从复制+读写分离详细方案

MySQL主从复制读写分离详细方案一、MySQL主从复制1.1mysql的复制类型1.2mysql主从复制的工作过程1.3MySQL的四种同步方式1.3.1异步复制&#xff08;Async Replication&#xff09;1.3.2同步复制&#xff08;Sync Replication&#xff09;1.3.3半同步复制&#xff08;Semi-Sync …