为什么我建议线上高并发量的代码,一定要注意数据可能会不一致?

news2025/1/11 23:01:13
V-xin:ruyuan0330 获得600+页原创精品文章汇总PDF

目录

  • 前情提示
  • 什么是数据一致性?
  • 一个数据计算链路的梳理
  • 数据计算链路的bug
  • 电商库存数据的不一致问题
  • 大型系统的数据不一致排查有多困难

一、前情提示

这篇文章,咱们继续来聊聊之前的亿级流量架构的演进,之前对这个系列的文章已经更新到了可扩展架构的设计,如果有不太清楚的同学,建议一定先回看一下之前的文章:

  1. 别光看NB的Github开源项目,你得参考他们去设计自己的架构!
  2. 为什么有些看起来很厉害的技术高手,设计的架构都很垃圾?
  3. 为什么每个程序员都必须坚持写博客?这篇文章教你怎么写!
  4. 同事老是吐槽我的接口性能差,原来真凶就在这里!
  5. 2022经历裁员之后,我总结了程序员必备的架构能力!
  6. 第一次当架构师,我设计高并发架构发现了N个痛点。。。
  7. 百亿级流量的系统架构该怎么设计,今天就来教会你!
  8. 我跟同事之间一次关于“架构设计”的嘴炮,大家一起听听…

老规矩!我们首先看一下这个复杂的系统架构演进到当前阶段,整体的架构图是什么样子的。

笔者再次友情提醒,如果各位小伙伴对下面这个复杂的架构图还有什么不理解的地方,一定要先回看之前的文章,因为系列文必须对上下文有清晰的理解和认识。

在这里插入图片描述

接着文本我们来聊聊一个核心系统每天承载百亿流量的背景下,应该如何来保证复杂系统中的数据一致性?


二、什么是数据一致性?

简单来说,在一个复杂的系统中一定会对一些数据做出非常复杂的处理,而且可能是多个不同的子系统,甚至是多个服务。

对一个数据按照一定的顺序依次做出复杂的业务逻辑的执行,最终可能就会生产出一份宝贵的系统核心数据,落地到存储里去,比如说在数据库里存储。

给大家来一张手绘彩图,感受下这个现场的氛围:

在这里插入图片描述

从上图中我们就可以看到,多个系统如何对一个数据依次进行处理,最终拿到一份核心数据,并落地到存储里去。

那么在这个过程中,就可能会产生所谓的数据不一致的问题。

什么意思呢?给大家举一个最简单的例子,我们本来期望数据的变化过程是:数据1 -> 数据2 -> 数据3 -> 数据4。

那么最后落地到数据库里的应该是数据4,对不对?

结果呢?不知道为啥,经过上面那个复杂的分布式系统中的各个子系统,或者是各个服务的协作处理,最后居然搞出来一个数据87。


搞了半天,搞了一个跟数据4风马牛不相及的一个东西,最后落地到了数据库里。

然后啊,这套系统的最终用户,可能通过前台的界面看到了一个莫名其妙的数据87。

这就尴尬了,用户明显会觉得这个数据有错误,就会反馈给公司的客服,此时就会上报bug到工程师团队,大家就开始吭哧吭哧的找问题。

上面说的这个场景,其实就是一种数据不一致的问题,也是我们接下来几篇文章要讨论的一个问题。

实际上,在任何一个大规模分布式系统里,都会存在类似的问题。无论是电商,O2O,还是本文举例的数据平台系统,都一样。


三、一个数据计算链路的梳理

那么既然已经明确了问题,接下来就来看看在数据平台这个系统里,到底是什么问题可能会导致一个最终落地存储的数据的异常呢?

要明白这个问题,咱们先回过头看看,在之前提过的数据平台这个项目里,一个最终落地的数据的计算链路是什么样的?

大家看看下面的图:

在这里插入图片描述

如上图所示,其实从最简单的一个角度来说,这个数据计算的链路大概也就是上面的那个样子。

  1. 首先,通过MySQL binlog采集中间件获取到数据,转发给数据接入层。
  2. 然后,数据接入层会把原始数据落地到kv存储里去
  3. 接着,是实时计算平台会从kv存储里提取数据进行计算
  4. 最后,会将计算结果写入到数据库+缓存的集群里。数据查询平台会从数据库 + 缓存的集群里提取数据,提供用户来进行查询

看起来很简单,对吧

但是哪怕是这个系统里,数据计算链路,也绝对不是这么简单的。

如果大家看过之前的系列文章的话,就应该知道,这个系统为了支撑高并发、高可用、高性能等场景,引入了大量的复杂机制。


所以实际上一条原始数据进入到系统,一直到最后落地到存储里,计算链路还会包含下面的东西:

  1. 接入层的限流处理
  2. 实时计算层的失败重试
  3. 实时计算层的本地内存存储的降级机制
  4. 数据分片的聚合与计算,单条数据在这里可能会进入一个数据分片里
  5. 数据查询层的多级缓存机制

上面只不过是随便列举了几条。然而哪怕只是上述几条,都可以把一个数据的计算链路变得复杂很多倍了。


四、数据计算链路的bug

既然大家已经明白了,在一个复杂系统里,一份核心数据可能是经过一个极为复杂的计算链路的处理,中间百转千回,任何可能的情况都会发生。

那么就可以理解在大型分布式系统中,数据不一致的问题是如何产生的了。

其实原因非常的简单,说白了,就是数据计算链路的bug

也就是说,在数据的计算过程中,某个子系统出现了bug,并没有按照我们预期的行为去处理,导致最终产出去的数据变得错误了。


那么,为什么会在数据计算链路中出现这种bug呢

原因很简单,如果大家曾经参与过上百人协作的大型分布式系统,或者是主导过上百人协作开发的大型分布式系统的架构设计,应该对核心数据的异常和错误非常熟悉,并且会感到头疼不已。

大规模分布式系统中,动辄上百人协作开发。很可能某个子系统或者是某个服务的负责人,对数据的处理逻辑理解偏差了,代码里写了一个隐藏的bug。

而这个bug,轻易不会触发,并且在QA测试环境还没测出来,结果带着一颗定时炸弹,系统上线。

最后在线上某种特殊的场景下,触发了这个bug,导致最终的数据出现问题。


五、电商库存数据的不一致问题

接触过电商的同学,可能此时脑子里就可以快速的想到一个类似的经典场景:电商中的库存

在大规模的电商系统中,库存数据绝对是核心中的核心。但是实际上,在一个分布式系统中,很多系统可能都会采用一定的逻辑来更新库存。

这就可能导致跟上述说的场景类似的问题,就是多个系统都更新库存,但就是某个系统对库存的更新出现了bug。

这可能是因为那个系统的负责人没理解到底应该如何更新库存,也或者是他更新的时候采用的逻辑,没有考虑到一些特殊情况。

这样导致的结果就是,系统里的库存和仓库中实际的库存,死活对不上。但就是不知道到底哪个环节出了问题,导致库存数据出错。

这个,其实就是一个典型的数据不一致的问题。


六、大型系统的数据不一致排查有多困难

当面对一个大型分布式系统时,如果你之前压根儿没考虑过数据不一致的问题,那么我敢打赌,当你负责的系统在线上被客服反馈有某个核心数据不一致的时候,你绝对会一脸蒙圈。

因为一个核心数据的处理,少则涉及几个系统的协作处理,多则涉及十个以上的系统的协作处理。

如果你没有留存任何日志、或者仅仅就是有部分日志,然后基本就只能所有人干瞪眼,大家大眼对小眼,都盯着自己的代码看。

大家根据一个数据最后的错误结果,比如数据87。10多个人对着自己的代码,反复的思考,冥思苦想。

然后每个人都在大脑中疯狂的模拟自己代码的运行,但是就是想不明白,为什么本来应该是数据4的,结果出来了一个数据87?


所以现实问题就是这样,这种数据不一致的问题,大概有以下几个痛点

  1. 自己基本无法主动提前感知到数据问题,要被动等待用户发现,反馈给客服,这很可能导致你的产品被大量投诉,老板很生气,后果很严重。
  2. 即使客服告诉了你数据错了,但是你们没法还原现场,没有留存证据,基本就是一群工程师对着代码想象,猜测。
  3. 即使你解决了一次数据不一致的问题,但是以后也许还有下一次,这样搞下去,会导致团队里好几个能干的小伙儿时间都搭在这种破事儿上。
V-xin:ruyuan0330 获得600+页原创精品文章汇总PDF

另外推荐儒猿课堂的1元系列课程给您,欢迎加入一起学习~

互联网Java工程师面试突击课(1元专享)

SpringCloudAlibaba零基础入门到项目实战(1元专享)

亿级流量下的电商详情页系统实战项目(1元专享)

Kafka消息中间件内核源码精讲(1元专享)

12个实战案例带你玩转Java并发编程(1元专享)

Elasticsearch零基础入门到精通(1元专享)

基于Java手写分布式中间件系统实战(1元专享)

基于ShardingSphere的分库分表实战课(1元专享)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/110680.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

06-Redis缓存设计与性能优化

多级缓存架构 缓存设计 缓存穿透 缓存穿透是指查询一个根本不存在的数据, 缓存层和存储层都不会命中, 通常出于容错的考虑, 如果从存储层查不到数据则不写入缓存层。 缓存穿透将导致不存在的数据每次请求都要到存储层去查询, 失…

基于多级适应方法的无人机(UAV)在发动机输出情况下的导航和路径规划(Matlab代码实现)

💥💥💞💞欢迎来到本博客❤️❤️💥💥 🏆博主优势:🌞🌞🌞博客内容尽量做到思维缜密,逻辑清晰,为了方便读者。 ⛳️座右铭&a…

【SwinTransformer】GitHub源码,main.py,swin_transformer.py...

声明:仅学习使用~ “我们抬头便看到星光,星星却穿越了万年”。 Contents 数据与环境配置解读main.pyswin_transformer.py数据与环境配置解读 来看 SwinTransformer 的github官网。已经开源了。(想不到在家里居然可以直接上GItHub,真好啊!) 进去后可以看到如下界面: I…

Windows tensorflow、keras虚拟环境搭建记录(使用conda和mamba)

Windows tensorflow、keras虚拟环境搭建记录 过程记录 首先创建虚拟环境 注意如果之前把conda镜像源配置到了国内,那这一步就不要挂梯子,否则会报出这种错误 conda create --name TF python3.5.2TF那里是给虚拟环境取个名字python后面指定版本号&#x…

103.(leaflet之家)leaflet态势标绘-聚集地绘制

地图之家总目录(订阅之前请先查看该博客) 地图之家:cesium+leaflet+echart+地图数据+地图工具等相关内容的介绍 文章末尾处提供保证可运行完整代码包,运行如有问题,可“私信”博主。 效果如下所示: 下面献上完整代码,代码重要位置会做相应解释 <!DOCTYPE html>…

一文带你看透空气质量

空气质量的好坏反映了空气污染程度&#xff0c;它是依据空气中污染物浓度的高低来判断的。空气污染是一个复杂的现象&#xff0c;在特定时间和地点空气污染物浓度受到许多因素影响。来自固定和流动污染源的人为污染物排放大小是影响空气质量的最主要因素之一&#xff0c;其中包…

【MySQL入门实战3】-存储引擎

&#x1f4e2;&#x1f4e2;&#x1f4e2;&#x1f4e3;&#x1f4e3;&#x1f4e3; 哈喽&#xff01;大家好&#xff0c;我是【IT邦德】&#xff0c;江湖人称jeames007&#xff0c;10余年DBA工作经验 一位上进心十足的【大数据领域博主】&#xff01;&#x1f61c;&#x1f61…

【K8S系列】第十三讲:Ingress详解

目录 序言 1.Ingress基本介绍 1.1 暴露服务问题 1.2 什么是Ingress 1.2 Ingress的核心组件 1.2.1 ingress 1.2.2 ingress-controller 1.2.3 反向代理负载均衡器 2.安装 2.1 下载/修改配置文件 2.2 安装资源 2.3 结果 2.4 项目示例 2.4.1 创建service及deploymen…

博德宝闪耀回归,九牧国际化提速

文|螳螂观察 作者|陈小江 怎样让厨房变得更好&#xff1f; 这是德国百年奢华橱柜品牌博德宝1892年创立之初&#xff0c;就在思考的问题&#xff0c;也是其品牌主张。 130年来&#xff0c;关于该问题的答案&#xff0c;随着博德宝不断创新在时刻刷新&#xff0c;并在全球引领…

Sentinel

Sentinel—高可用流量管理框架/服务容错组件 一.为什么要用Sentinel? 1.微服务架构中当某服务挂掉的时候常见的原因有哪些&#xff1f; 1.异常没处理 比如DB连接失败&#xff0c;文件读取失败等 2.突然的流量激增 比如&#xff1a;用户经常会在京东、淘宝、天猫、拼多多…

java 三级缓存

&#x1f3c6;今日学习目标&#xff1a; &#x1f340;java 三级缓存 ✅创作者&#xff1a;林在闪闪发光 ⏰预计时间&#xff1a;30分钟 &#x1f389;个人主页&#xff1a;林在闪闪发光的个人主页 &#x1f341;林在闪闪发光的个人社区&#xff0c;欢迎你的加入: 林在闪闪发光…

五问补盲(四)| 好用的补盲激光雷达,得满足哪些条件?

作者 | 爱LiDAR的小飞哥 编辑 | 王博上一期&#xff0c;我们聊了补盲激光雷达上车的重要前提——安全。本期我们来聊聊&#xff0c;满足功能安全、网络安全等领域的关键设计要求之后&#xff0c;补盲激光雷达怎么做到好用&#xff0c;更贴近工程化的表述是「易用」。在之前的文…

利器 | 接口自动化测试框架 RESTAssured 实践(三):对 Response 结果导出

上一篇文章中介绍了rest-assured对返回结果的断言&#xff0c;最后说明了对于Response结果导出的需求。可查看往期文章进行查看。 HTTP/1.1 200 OK Server: nginx/1.12.2 Date: Mon, 13 Jan 2020 02:15:11 GMT Content-Type: application/json;charsetUTF-8 Transfer-Encoding…

产险精算GLM案例

这是对北美产险精算学会CAS北美产险精算师考试教材《广义线性模型实践者指南》的第一章中的实例的结果验证&#xff0c;教材中使用的是纯数学理论推导&#xff0c;这里使用python进行结果验证。 原始数据是一个简单的分组数据&#xff1a; 这个原始数据表需要进行结构化后&…

前端基础(十七)_HTML5新特性

HTML5新特性 1、在网页上绘制图形的canvas元素 原生JavaScriptcanvas实现五子棋游戏_值得一看 鼠标移动淡入淡出Canvas小球效果_TS版本 JS配合canvas实现贪吃蛇小游戏 canvas基础及太极图案例 2、多媒体相关video和audio元素 html5 video 音频标签: audio 标签 在IE8及更早版本…

LVGL学习笔记1 - 准备

目录 1. 下载LVGL源代码 2. 平台 3. 导入到工程 3.1 配置头文件 3.2 src文件夹 4. 移植 4.1 显示接口部分 4.1.1 disp_init 4.1.2 lv_port_disp_init 4.1.3 disp_flush 4.2 IPA部分 4.2.1 lv_draw_gd32_ipa_init 4.2.2 lv_draw_gd32_ipa_blend_fill 4.2.3 lv_dra…

Web API节点操作

1、节点概述 网页中的所有内容都是节点&#xff08;标签、属性、文本、注释等&#xff09;&#xff0c;在DOM 中&#xff0c;节点使用 node 来表示。HTML DOM 树中的所有节点均可通过 JavaScript 进行访问&#xff0c;所有 HTML 元素&#xff08;节点&#xff09;均可被修改&a…

(JavaP1177 )【模板】快速排序

【模板】快速排序 一、题目描述 利用快速排序算法将读入的 NNN 个数从小到大排序后输出。 快速排序是信息学竞赛的必备算法之一。对于快速排序不是很了解的同学可以自行上网查询相关资料&#xff0c;掌握后独立完成。&#xff08;C 选手请不要试图使用 STL&#xff0c;虽然你…

认识信道(零):天线的极化

认识信道(零)&#xff1a;天线的极化 文章目录认识信道(零)&#xff1a;天线的极化零.简述一.平面电磁波的传播二.对于field pattern的研究三.对于传播路程的研究四.极化失配五.传播结果六.QuaDRiGa Tutorial分析TXV-RXVTX45-RXV和 TXV-RX45TX45-RX45TX90-RX0&#xff0c;45&am…

[Linux]-Crontab定时任务

[Linux]-Crontab定时任务 森格 | 2022年12月 本文是对Linux中的定时任务Crontab的介绍 一、Crontab是什么 crontab命令常见于Unix和类Unix的操作系统之中&#xff0c;用于设置周期性被执行的指令。该命令从标准输入设备读取指令&#xff0c;并将其存放于“crontab”文件中&…