使用缓存降低数据库并发读写方案探索

news2024/12/25 12:56:18

文章目录

  • 前言
  • 缓存设计思想
    • 缓存划分
    • 缓存应用时机
  • 客户端缓存
    • 浏览器缓存
    • 网关或代理服务器缓存
    • CDN
    • PCDN
  • 服务端缓存
    • 本地缓存
      • 本地缓存实现
        • Java堆缓存
        • memcached/ecache
        • caffeine
        • ORM框架一级/二级缓存
    • 分布式缓存
      • 分布式缓存优缺点
      • 分布式缓存实现
      • 分布式缓存实施过程可能遇到问题
        • 分布式缓存数据一致性问题
        • 缓存穿透
        • 缓存击穿
        • 缓存雪崩

前言

随着系统的并发量增加,数据库的并发读写最终将成为整个提供的瓶颈,甚至压垮整个数据库,导致系统卡死等严重问题。通过缓存是缓解数据库压力的重要手段,通过缓存把绝大多数请求在读写数据库前拦截掉,大大降低数据库压力。同时缓存也是网站加速数据访问的重要手段。

缓存设计思想

缓存设计最核心的原则就是让数据离用户更近。优秀的缓存设计直接影响到系统的高并发性能和响应速度,甚至影响客户体验。缓存是改善软件应用性能的第一手段。缓存有三个作用范围:

  • 事务、
  • 应用、
  • 集群

缓存划分

缓存按照存放位置不同可以分为客户端缓存和服务端缓存。
缓存分层
客户端缓存:

  • 浏览器缓存
  • 网关及代理服务器缓存
  • CDN

服务器缓存:

  • 本地缓存:
  • 分布式缓存:
  • 数据库缓存:

缓存应用时机

一个好的缓存设计方案需要综合考虑缓存的存储、使用时机、优缺点、以及分布式高并发下缓存一致性、缓存命中、缓存击穿/雪崩等问题。

使用缓存有两个前提条件,一是数据访问热点不均,某些数据应该被放在缓存中;二是数据在某个时间段内有效,不会很快过期。

客户端缓存

客户端缓存通常指web前端缓存,可以分为:浏览器缓存和代理服务器缓存。是目前网站前端加速的主要方式,其实现基本方式是:将制定的网站资源(整体页面、静态文件(js、css、图片)等)周期性缓存起来,缓存时间可以从几秒到几天不等,极大减少了网站应用服务器和数据库负荷。

浏览器缓存

浏览器缓存是最靠近客户的缓存机制,当开启浏览器缓存后,客户访问同一个页面将不从服务器下载页面,也是从浏览器本地缓存目录读取页面,然后在浏览器中展示。对于不常变化资源可以使用强制缓存策略。浏览器缓存更新问题解决:可以在资源的引用地址(路径)后面增加hash、版本号等动态字符,从而达到更新资源引用URL目的,让之前的缓存强制失效(PS:其实并未立即失效,而是不在使用)。

网关或代理服务器缓存

将网页缓存到代理服务器上,多个用户访问同一个页面时,将直接从代理服务器把页面传送给用户。常见实现如,Ngnix反向代理缓存。使用反向代理服务器缓存实现简单,通常通过简单配置便可以实现,而不需要外增加代码开发。反向代理服务器缓存适合实时性要求不高或者经常不变的页面,如果门户首页、商品详情等页面。在生产级别网站,用户对网站的数据请求访问时,最先访问到的就是反向代理服务器,因此通过反向代理服务器的静态资源无需继续访问应用服务器便可返回给用户。

CDN

CDN是内容分发网络,其基本思路是尽可能避开互联网上有可能影响数据传输速度和稳定性的瓶颈和环节,使内容传输得更快、更稳定。通过在网络各处放置节点服务器所构成的在现有的互联网基础之上的一层智能虚拟网络,CDN系统能够实时地根据网络流量和各节点的连接、负载状况以及到用户的距离和响应时间等综合信息将用户的请求重新导向离用户最近的服务节点上。其目的是使用户可就近取得所需内容,解决 Internet网络拥挤的状况,提高用户访问网站的响应速度。如电商网站、视频网站、门户网站等会将用户访问量大的热点内存缓存在CDN。
CDN是网站提供跨区域服务优化网站响应速度、改善客户体验的重要手段。

PCDN

PCDN 是以 P2P 技术为基础,通过挖掘利用边缘网络海量碎片化闲置资源而构建的低成本、高品质内容分发网络服务。许多云盘、视频播放厂商经常使用该技术来进行内容分发。该手段非常好用,不过许多非法厂商在不告知个人用户的情况下白嫖用户带宽,给用户带来损失。

服务端缓存

在服务端编程中,缓存主要是将数据库中数据加载到内存中,之后对该数据的读写都是在内存中完成,减少对数据库的访问,是解决高并发场景数据库并发读写瓶颈的主要手段之一。同时基于内存的读写处理速度高于磁盘I/O,缓存也是提高服务响应速度和性能重要手段。
根据缓存是否与应用在同一进程,可以将缓存分为本地缓存和分布式缓存:

  • 本地缓存:应用同一进程内存空间缓存数据,数据读写都在同一进程。
  • 分布式缓存:独立部署的进程,通常与应用进行部署在不同机器,缓存的读写需要通过网络来完成数据的传输。

本地缓存

本地缓存优缺点:

  • 访问速度快,但无法缓存大量数据:本地缓存不需要跨网络传输,性能更好,但是由于本地缓存使用应用进程的内存空间,不能进行大数据存储。
  • 集群数据更新问题:本地缓存只支持本地进程应用访问,其他进程应用无法访问,因此需要额外的机制来保证数据的一致性,实现复杂度高且容易出错。比如通过redis或zookeeper实现分布式同步。
  • 数据随应用进程重启而丢失。

适用场景
本地缓存适用于缓存只读数据,如字典、统计类数据,以及进程独立数据,如本地长连接服务。

本地缓存实现

Java堆缓存

使用Java堆内存来缓存数据。没有对象的序列化和反序列化,是最快的缓存。在编程中常用HashMap和ConcurrentHashMap来实现本地缓存。Java堆缓存应该避免大数据量缓存(可能导致GC停顿时间过长),同时可以使用软引用/弱引用来缓存对象,可以使当内存不足时,强制回收这部分对象,释放内存。Java堆内存一般用于缓存较热的数据。

memcached/ecache

ecache是基于java的开源高效的、进程内缓存解决方案。ecache轻量、简单,被广泛应用于其他ORM框架数据二级缓存的底层实现(如Hinernate)。
memcached和ecache实现原理类似,基于K-V将数据缓存到内存,memcached支持多线程操作。相比ecache,memcached更加灵活。

caffeine

Caffeine是基于Java 的高性能缓存库,可提供接近最佳的命中率。Caffeine与ConcurrentMap类似,但是Caffeine与ConcurrentMap最根本的区别是,ConcurrentMap会保留添加到其中的所有元素,直到将其明确删除为止,而Caffeine能自动的回收存储的元素。
通过caffeine基准测试,可以看到caffeine在读写方面明显优与其他框架,在缓存命中率上Caffeine也不同于Guava,采用了更为优秀的Window TinyLfu算法,该算法是在LRU的基础上改进的版本。

ORM框架一级/二级缓存

许多ORM本身带缓存功能,比如Mybatis、JPA、Hibernate都支持一级缓存和二级缓存。一级缓存是默认开启的,其中Mybatis是针对namespace、JPA是针对与entityManager、Hibernate针对单Session。ORM框架缓存对于小型单体应该还是可以使用,不过对于大型生产级尤其是使用容器化部署分布式微服务场景建议关闭ORM框架缓存,单纯使用ORM框架就好。

分布式缓存

分布式缓存也叫进程外缓存,通常是独立于应用部署,通过网络进行缓存读写的数据传输。

分布式缓存优缺点

  • 支持大量数据存储,不受应用进行重启影响:分布式缓存是独立部署的进程,拥有独立的内存空间,并且一般以集群的方式拓展,故而可以进行大数据储存。
  • 数据集中存储,保证数据一致性:当应用采用集群部署时,集群每个节点通过统一的分布式缓存服务进行数据的读写操作,不存在本地缓存中数据更新问题,保证不同节点应用进行的数据一致性问题。
  • 数据读写分离、高性能、高可用:分布式缓存一般支持数据副本机制,可以实现读写分离,可以解决高并发场景中数据读写性能问题。并且由于在多节点缓存冗余数据,提高了存储数据的可用性,避免某个节点宕机导致数据不可用。
  • 数据基于网络传输,性能低于本地缓存。

分布式缓存实现

目前项目中用到的分布式缓存主要还是Redis、memcached。Redis因其高性能和高可用性,常被用于业务缓存,有效地减少数据库读取次数和压力。Memcached则因其简单高效,常用于需要高并发读写操作的场景。选择合适的分布式缓存技术需要根据具体的应用场景、数据类型、性能要求以及成本等因素综合考虑。

分布式缓存实施过程可能遇到问题

分布式缓存数据一致性问题

我们经常说到的分布式缓存一致性问题主要是数据库和缓存的读写一致性问题。 我们在项目中解决该问题主要还是采用最终一致性解决方案。首先给缓存设置过期时间是保证缓存最终一致性解决方案,其次所有数据的写操作以数据库为准,对缓存尽最大努力。

缓存更新策略:
先更新数据库再失效缓存

  • 失效:应用先从缓存获取数据,如果没有从数据库读取,成功后放入缓存。
  • 命中:应用从缓存读取数据,命中后返回
  • 更新:先更新数据库,然后失效缓存(延时双删)
缓存穿透

缓存穿透是指key对应的数据源不存在,导致每次针对key的请求都无法从存储层获取数据并写入到缓存,从而每次请求都落到数据库,失去了缓存意义。流量大时可能就拖垮了DB。

解决方案

  • 方案一:对于查询返回为空的数据,仍存储到缓存(需要设置缓存过期时间尽可能短)
  • 方案二:使用布隆过滤器,将可能存在的数据hash到足够大bitmap中,一个一定不存在的数据可以通过布隆过滤器拦截掉。

不过实际项目上还是较少使用布隆过滤器解决缓存穿透,因为布隆过滤器一旦创建便无法删除元素,当某个key已经存在数据源时无法直接从布隆过滤器删除key,要更新key需要重建整个布隆过滤器。布隆过滤器本身应用场景还是url去重、垃圾邮件过滤、黑白名单、敏感词等更多。

缓存击穿

缓存击穿主要出现在高并发的热点数据访问场景。导致缓存击穿原因主要是同一时间发生消除读写(删),导致并发下缓存失效。或者是并发读取缓存时,恰巧达到缓存失效还来不及从数据库读取并写入缓存。

解决方案

  1. 比较常见的方法是使用使用互斥锁(mutex)机制,当缓存失效时,不是立即去load DB,而是先执行set mutex(比如redis的setnx),如果操作成功,则load DB并写入缓存,如果操作失败则重试get缓存。
  2. 另外可以对某些静态热点数据使用永不过期策略或者长期有效策略。
缓存雪崩

大范围设置缓存相同的过期时间,如果一些应用初始加载缓存,采用并发写策略(多线程),导致了某一时间缓存全部失效,请求全部转发到DB,DB瞬时压力过大雪崩。高并发应用的缓存雪崩对于底层系统冲击非常可怕。缓存雪崩主要还是代码设计不合理导致,例如批量写入数据库并缓存的场景,在批量写入循环外层设置一个固定缓存时间,这样就会导致批量写入的数据缓存会在同一时点过期。

解决方案

  • 考虑加锁或者队列方式写缓存,避免缓存过期时间一致
  • 在设置缓存是在原有缓存失效时间基础加上一个随机值,降低过期时间的重复率。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1804250.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【冲刺秋招,许愿offer】第 一 天

【冲刺秋招,许愿offer】第 一 天 知识点emo环节 知识点 Java Leetcode:可以用LinkedListMap模拟实现LRUCache,用hash表查找,双向链表记录顺序。集合:集合的遍历方式,可以使用迭代器(万能)、增强for只能用…

Mysql使用中的性能优化——批量插入的规模对比

在《Mysql使用中的性能优化——单次插入和批量插入的性能差异》中,我们观察到单次批量插入的数量和耗时呈指数型关系。 这个说明,不是单次批量插入的数量越多越好。本文我们将通过实验测试出本测试案例中最佳的单次批量插入数量。 结论 本案例中约每次…

【模拟-BM100 设计LRU缓存结构】

题目 BM100 设计LRU缓存结构 描述 设计LRU(最近最少使用)缓存结构,该结构在构造时确定大小,假设大小为 capacity ,操作次数是 n ,并有如下功能: Solution(int capacity) 以正整数作为容量 capacity 初始化 LRU 缓存get(key)&am…

[大模型]CharacterGLM-6B Transformers部署调用

环境准备 在autodl平台中租一个3090等24G显存的显卡机器,如下图所示镜像选择PyTorch–>2.0.0–>3.8(ubuntu20.04)–>11.8 接下来打开刚刚租用服务器的JupyterLab,并且打开其中的终端开始环境配置、模型下载和运行demo。 pip换源和安装依赖包 …

python爬虫入门教程(一)

上一篇文章讲了爬虫的工作原理,这篇文章以后就要重点开始讲编程序了。 简单爬虫的的两个步骤: 使用HTTPRequest工具模拟HTTP请求,接收到返回的文本。用于请求的包有: requests、urllib等。 对接收的文本进行筛选,获取想要的内容。用户筛选文…

Nvidia/算能 +FPGA+AI大算力边缘计算盒子:隧道和矿井绘图设备

RockMass 正在努力打入采矿业和隧道工程利基市场。 这家位于多伦多的初创公司正在利用 NVIDIA AI 开发一款绘图平台,帮助工程师评估矿井和施工中的隧道稳定性。 目前,作为安全预防措施,地质学家和工程师会站在离岩石五米远的地方&#xff0…

【Pyqt6 学习笔记】DIY一个二维码解析生成小工具

文章目录 Pycharm 配置QtDesignerPyUIC基本模板 代码示例依赖包main.pyscreen_shot_module.pyuntitled.pyuntitled.ui Pycharm 配置 摘自PyQT6的从零开始在Pycharm中配置与使用——蹦跑的蜗牛 pip install PyQt6 PyQt6-toolsQtDesigner File -> Settings -> External …

pdf文件在线压缩网站,pdf文件在线压缩工具软件

在数字化时代的今天,PDF文件已经成为我们日常生活和工作中不可或缺的一部分。然而,随着PDF文件的广泛使用,其文件大小问题也日益凸显。过大的PDF文件不仅占用了大量的存储空间,而且在传输和共享过程中也往往面临诸多不便。因此&am…

ubuntu 用户名及密码忘记操作

1、重启系统,长按Shift键,直到出现菜单,选则高级设置。选择recovery mode,即恢复模式 2、选择root 3、# 后面敲入 sudo passwd 用户名 4、# passwd "用户名" 之后再敲两次密码就可以了。(如果提示修改失败可先执行&a…

mac读不出来ntfs mac硬盘读不出来盘

新买的Mac电脑由于需要导入旧电脑的数据,因此通常会读取备份硬盘,通过硬盘进行导入。不过由于各种原因,有些mac用户反馈无法正常读取或写入NTFS移动硬盘,下面就通过本篇教程,简单讲述当mac读不出来ntfs,mac…

[ROS 系列学习教程] 建模与仿真 - 使用 Arbotix 控制机器人

ROS 系列学习教程(总目录) 本文目录 一、Arbotix 简介二、安装Arbotix三、配置Arbotix控制器四、配置launch启动文件五、数据交互接口六、在rviz中仿真控制机器人6.1 直接发topic控制6.2 使用键盘控制6.3 编写代码控制机器人移动 前面讲了机器人的建模,是静态的&…

独著和第一主编的区别有哪些?

独著,合著,包本 大量主编,副主编位置 国家级出版社,省级科技社 纸质书号(带CIP)电子专著,总署可查 国家级出版社,省级社,百级社 qkfb88688 独著和第一主编主要有以下区别…

免费使用GPT-4生成图片的方法

写在前言 hello,大家好,我是一点,喜欢编程,目前持续在关注AI领域的发展,希望可以结交一些有意思的朋友。 大家可以关注我的公号:【一点sir】,了解更多文章,希望可以和你们成为朋友…

变频器多段速位置定位控制注意事项

本篇博客介绍利用变频器多段速实现位置控制时的注意事项,T型和S型速度曲线轨迹规划请参考下面文章链接: S速度曲线轨迹规划(普通变频位置闭环控制算法详细介绍+SCL代码)_位置闭环算法-CSDN博客文章浏览阅读1.9k次,点赞2次,收藏9次。位置控制用PD控制器,详细内容介绍请查看…

后端服务器启动访问

VisualStudioCode(VSCode) 服务器启动 浏览器中测试访问 http://localhost:3000

JavaScript基础(十二)

截取字符串 //对象名.toLowerCase();将字符串转为小写 var strLAOWANG; strstr.toLowerCase(); console.log(str); //对象名.toUpperCase();将字符串转为大写 var str1laowang str1str1.toUpperCase(); console.log(str1); 截取字符串 //方法1:对象名.substr(a,b); …

Python实现连连看9

(2)标识选中的图片 在判断出玩家选中的是哪一张图片之后,接下来就可以标识选中的图片了,即在该选中的图片外围画矩形。代码如下所示。 FIRSTCLICK True #FIRSTCLICK是全局变量 if(click_col>0 and click_row>0) and \(no…

Layui:一款强大的前端UI框架

随着互联网技术的快速发展,前端技术也在不断更新和演进。前端工程师们面临着越来越多的挑战,需要在短时间内构建出高质量、高效率的网页应用。为了提高开发效率和降低开发难度,许多前端UI框架应运而生。在这些框架中,Layui凭借其优…

XUbuntu22.04之ssh+x11显示远程图形到本机(二百四十四)

简介: CSDN博客专家,专注Android/Linux系统,分享多mic语音方案、音视频、编解码等技术,与大家一起成长! 优质专栏:Audio工程师进阶系列【原创干货持续更新中……】🚀 优质专栏:多媒…

python数据分析——聚类

参考资料:活用pandas库 1、k均值聚类 使用k均值算法,首先要选定数据中的群集数(k)。它会随机选取数据中的k个点,计算每个数据点到最初选取的k个点之间的距离。最接近某个群集的点会被划分到同一个集群组。然后把每个群…