彻底理解如何保证ElasticSearch和数据库数据一致性问题

news2024/11/28 23:01:44

一.业务场景举例

需求:

一个卖房业务,双十一前一天,维护楼盘的运营人员突然接到合作开发商的通知,需要上线一批热门的楼盘列表,上传完成后,C端小程序支持按楼盘的名称、户型、面积等产品属性全模糊搜索热门楼盘。

需求分析,提取其中的关键点:

1.功能需求:按楼盘的名称、户型、面积等产品属性全模糊搜索;

2.非功能需求(比如性能、安全等):双十一期间,楼盘搜索QPS预计在800左右,搜索完成后展示的楼盘字段信息非常多。

假设底层使用Mysql数据库存储,用户输入楼盘的名称、户型、面积等产品属性,支持全模糊查询,就无法走索引,如果QPS并发上来后,数据库很容易被打爆,所以我们需要考虑其他的存储方案

通过技术调研发现,在全文搜索领域,ES已经成为事实的标准方案,它有很多优势:

(1)高性能;

(2)分布式部署,水平扩容;

(3)准实时。

所以综合考虑,最终我们在方案选型上选择了ES,热门楼盘在运营后台完成新增或修改,写入Mysql后,将数据库的变更记录同步到ES中,那如何保证Es与Mysql的数据一致性?

解决方案:

1.ES与数据库双写方案;

2.MQ异步写入方案(大厂第二推荐);

3.定时任务同步方案;

4.监听Binlog异步同步方案(大厂第一推荐)。

具体使用哪种方案,还需根据自身业务场景来定,接下就对这四种方案分别进行优缺点的分析。

二.ES与数据库双写方案

在数据库写入Mysql的同时,通过编程逻辑将相同的数据写入ES。(串行写入数据)

优点:

1.实时性:数据变更能够立即反映到Elasticsearch,保证了查询的实时性;

2.简单性:实现起来相对简单,不需要引入额外的组件或复杂逻辑。 

缺点:

1.性能影响:每次写入MySQL的同时写入Elasticsearch,可能会对两个系统的性能都产
生影响;
2.数据一致性风险:在高并发情况下,可能会遇到双写失败导致数据不一致的问题;
3.系统耦合:每个写入操作都需要双写逻辑,增加了业务逻辑的复杂性和维护难度。

实现步骤:

1.代码修改:在业务逻辑中,对于每次对MySQL的写入操作,复制相同的逻辑到Elasticsearch;

2.事务管理:使用数据库事务确保操作的原子性,避免数据不一致;

3.性能优考:虑使用批量写入或异步处理来减少对性能的影响。

三.MQ异步写入方案

利用消息队列(MQ)异步处理数据写入操作。(通过订阅MQ来写如ES,可以优化同步写入性能问题)

优点:

1.性能提升:通过异步处理,减少了对MySQL写入性能的影响;

2.容错性:利用消息队列的持久化和重试机制,提高了数据同步的可靠性(即使MQ挂了,重启MQ以后,还是可以继续消费消息进行同步)。

缺点:

1.数据延迟:由于是异步处理,存在数据同步的延迟问题;

2.系统复杂度:需要引入消息队列和额外的消费者逻辑,增加了系统的复杂性(因为在MQ的下游还需要编写一个消费者来同步更新ES)。

实现步骤:

1.消息队列集成:选择并集成一个消息队列系统,如Kafka或RabbitMQ;

2.业务逻辑修改:将数据写入MySQL后,将变更信息发送到消息队列;

3.消费者开发:开发消费者服务,从消息队列中读取消息并异步写入ES;

4.异常处理:为消息队列的消费者实现异常处理和重试逻辑。

四.定时任务同步方案

通过定时任务,根据数据库中的时间戳字段变化来抽取并同步到ES。(这个方式还需要在表中增加以一个时间戳的字段来进行记录,才能方便同步的应用抽取数据)

优点:

1.无侵入性:不需要修改现有业务逻辑,对原系统无感知;

2.简单实现:通过定时任务实现,逻辑简单,易于理解和维护。

缺点:

1.时效性差:数据同步存在延迟,无法满足实时性要求(因为定时任务的脚本并不是实时的,所以会导致ES中的数据要比Mysql中的数据慢很多);

2.性能压力:定时任务可能会对数据库产生额外的查询压力(原本Mysql只需要支持系统应用的运行,现在还需要支持定时任务的查询,就可能导致额外的查询压力)。

实现步骤:

1.时间截字段添加:在MySQL的数据表中添加时间戳字段,用于记录数据变更时间;

2.定时任务配置:设置定时任务,按照固定频率查询MySQL中自上次同步以来发生变化的数据;

3.数据抽取:定时任务将查询结果抽取出来,准备同步到ES;

4.数据同步:将抽取的数据写入ES,完成同步过程。

五.监听Binlog异步同步方案

利用Mysql的Binlog日志,通过消息队列或者直接消费Binlog变化来同步数据至ES。(相比于用Binlog的组件替代了定时任务,Binlog组件伪装成一个从节点,当主节点发送了数据变更后,它就回把数据发送到子子节点,也就是Binlog组件中,然后组件收到数据后就同步到ES)

优点:

1.无侵入性:不需要修改现有的亚务代码,对现有系统无感知;

2.数据一致性:可以利用Binlog精确捕捉到数据库的所有变更,确保数据同步的完整;

3.高性能:Binog可以高效地处理数据变更,对原数据库性能影响较小(因为只是伪装了一个从节点,也就是相当于多一个节点需要同步数据);

4.容错性:通常配合消息队列使用,即使在网络波动或服务故障的情况下,也能保证数据最终一致性。

缺点:

1.系统复杂性:需要搭建和维护Binlog监听和消息队列系统,增加了系统架构的复杂度;

2.延时问题:虽然是基于实时同步,但在极端情况下,如消息队列积压,仍然可能遇到数据同步延迟。

实现步骤:

1.Binlog启用:确保MySQL实例开启了Binog功能,并且Binlog格式(row或mixed)能够支持所需的数据同步需求;

2.Binlog监听器配置:部署并配置Binlog监听器(如Debezium),监听指定的MySQL实例和数据库。
消息队列集成:将Binlog监听器与消息队列(如Kafka)集成,确保Binlog变更能够被转换成消息并发送到队列中;

3.消息消费者开发:开发消息消费者服务,该服务从消息队列中读取Binog变更消息并将其转换为Elasticsearch能够理解的格式;

4.数据同步:消息消费者服务将转换后的数据写入Elasticsearch,完成数据同步异常处理:实现异常处理机制,确保在数据同步失败时能够进行重试或记录日志以便后续处理。

推荐使用数据同步工具:Canal

PS:

如果还需要了解更多的ElasticSerache的使用方法,可以查看《ElasticSearch7.6.x 快速入门到实战案例》文章。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2249357.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

EasyExcel: 结合springboot实现表格导出入(单/多sheet), 全字段校验,批次等操作(全)

全文目录,一步到位 1.前言简介1.1 链接传送门1.1.1 easyExcel传送门 2. Excel表格导入过程2.1 easyExcel的使用准备工作2.1.1 导入maven依赖2.1.2 建立一个util包2.1.3 ExcelUtils统一功能封装(单/多sheet导入)2.1.4 ExcelDataListener数据监听器2.1.5 ResponseHelper响应值处理…

前端实用知识-用express搭建本地服务器

目录 一、为什么会有这篇文章? 二、使用前的准备-如环境、工具 三、如何使用?-express常用知识点 四、代码演示-配合截图,简单易懂 一、为什么会有这篇文章? 在日常前端开发中,我们离不开数据,可能是用…

Redis(概念、IO模型、多路选择算法、安装和启停)

一、概念 关系型数据库是典型的行存储数据库,存在的问题是,按行存储的数据在物理层面占用的是连续存储空间,不适合海量数据存储。 Redis在生产中使用的最多的是用作数据缓存。 服务器先在缓存中查询数据,查到则返回,…

C#基础控制台程序

11.有一个54的矩阵,要求编程序求出其中值最大的那个元素的值,以及其所在的行号和列号。 12.从键盘输入一行字符,统计其中有多少个单词,单词之间用空格分隔开。 13.输入一个数,判断它是奇数还是偶数,如果…

Flink开发入门简单案例--统计实时流订单

Flink开发入门简单案例 0.简介1.订单数据生成器1.1 新建工程TestFlink1.2 在pom.xml中引入Flink依赖包1.3 订单数据生成类订单类(Item)订单生成数据流类测试订单生成类 2.订单统计2.1 仅统计订单中商品的件数 2.2 同时统计商品数量和金额 0.简介 本案例…

AI前景分析展望——GPTo1 SoraAI

引言 人工智能(AI)领域的飞速发展已不仅仅局限于学术研究,它已渗透到各个行业,影响着从生产制造到创意产业的方方面面。在这场技术革新的浪潮中,一些领先的AI模型,像Sora和OpenAI的O1,凭借其强大…

PAT1085 Perfect Sequence(25)

//判断是否是连续的数 //判断是否只能第一个数是最小值 #include <cstdio> #include <algorithm> typedef long long ll; using namespace std; int n,p; const int maxn 100010; int arr[maxn];int binary(int l, int r, ll tgt){if(arr[n-1] < tgt) return n…

QChart数据可视化

目录 一、QChart基本介绍 1.1 QChart基本概念与用途 1.2 主要类的介绍 1.2.1 QChartView类 1.2.2 QChart类 1.2.3QAbstractSeries类 1.2.4 QAbstractAxis类 1.2.5 QLegendMarker 二、与图表交互 1. 动态绘制数据 2. 深入数据 3. 缩放和滚动 4. 鼠标悬停 三、主题 …

SpringBoot源码-spring boot启动入口ruan方法主线分析(一)

一、SpringBoot启动的入口 1.当我们启动一个SpringBoot项目的时候&#xff0c;入口程序就是main方法&#xff0c;而在main方法中就执行了一个run方法。 SpringBootApplication public class StartApp {public static void main(String[] args) {// testSpringApplication.ru…

C#变量和函数如何和unity组件绑定

1.Button On_click (1)GameObject通过Add component添加上Script (2)Button选GameObject组件而不是直接选Script,直接选Script出现不了Script中的函数 2.RawImage 上面是错的 3.Text 上面是错的&#xff0c;应该是直接在GameObject里面填上对应的值 总结&#xff1a; …

Flink Sink的使用

经过一系列Transformation转换操作后&#xff0c;最后一定要调用Sink操作&#xff0c;才会形成一个完整的DataFlow拓扑。只有调用了Sink操作&#xff0c;才会产生最终的计算结果&#xff0c;这些数据可以写入到的文件、输出到指定的网络端口、消息中间件、外部的文件系统或者是…

【Spring MVC】如何获取cookie/session以及响应@RestController的理解,Header的设置

前言 &#x1f31f;&#x1f31f;本期讲解关于SpringMVC的编程之参数传递~~~ &#x1f308;感兴趣的小伙伴看一看小编主页&#xff1a;GGBondlctrl-CSDN博客 &#x1f525; 你的点赞就是小编不断更新的最大动力 &#x1f386;那么废…

使用 exe4j 将 Spring Boot 项目打包为 EXE 可执行文件

使用 exe4j 将 Spring Boot 项目打包为 EXE 可执行文件 文章目录 使用 exe4j 将 Spring Boot 项目打包为 EXE 可执行文件什么是 exe4j准备工作打包 Spring Boot 项目为 EXE 文件1.启动 exe4j2. 选择项目类型3. 配置项目名称和输出目录4. 配置项目类型或可执行文件名称5. java配…

前端JavaScript(一)---基本介绍

Javascript是一种由Netscape(网景)的LiveScript发展而来的原型化继承的面向对象的动态类型的区分大小写的客户端脚本语言&#xff0c;主要目的是为了解决服务器端语言&#xff0c;比如Perl&#xff0c;遗留的速度问题&#xff0c;为客户提供更流畅的浏览效果。当时服务端需要对…

阿里Qwen系列开源模型介绍

模型种类丰富 Qwen2&#xff1a;包含Qwen2-0.5b、Qwen2-1.5b、Qwen2-7b、Qwen2-57b-a14b以及Qwen2-72b等五种规模的预训练和指令微调模型&#xff0c;其在多语言处理、长文本处理、代码生成、数学和逻辑推理等能力上&#xff0c;在mmlu、gpqa、humaneval等国际测评中得到了验证…

基于Java的小程序电商商城开源设计源码

近年来电商模式的发展越来越成熟&#xff0c;基于 Java 开发的小程序电商商城开源源码&#xff0c;为众多开发者和企业提供了构建个性化电商平台的有力工具。 基于Java的电子商城购物平台小程序的设计在手机上运行&#xff0c;可以实现管理员&#xff1b;首页、个人中心、用户…

开源 AI 智能名片 2 + 1 链动模式 S2B2C 商城小程序源码助力品牌共建:价值、策略与实践

摘要&#xff1a;在当今数字化商业环境下&#xff0c;品牌构建已演变为企业与消费者深度共建的过程。本文聚焦于“开源 AI 智能名片 2 1 链动模式 S2B2C 商城小程序源码”&#xff0c;探讨其如何融入品牌建设&#xff0c;通过剖析品牌价值构成&#xff0c;阐述该技术工具在助力…

力扣797. 所有可能的路径

算法思想 深度优先搜索&#xff08;DFS&#xff09;&#xff1a; 使用递归从节点 0 开始&#xff0c;探索所有从当前节点到终点 n−1 的路径。每次访问一个节点时&#xff0c;将该节点加入当前路径 path。 回溯法&#xff1a; 在递归返回时&#xff0c;通过 path.pop_back()…

AMD(Xilinx) FPGA配置Flash大小选择

目录 1 FPGA配置Flash大小的决定因素2 为什么选择的Flash容量大小为最小保证能够完成整个FPGA的配置呢&#xff1f; 1 FPGA配置Flash大小的决定因素 在进行FPGA硬件设计时&#xff0c;选择合适的配置Flash是我们进行硬件设计必须考虑的&#xff0c;那么配置Flash大小的选择由什…

Git简单介绍

一、 Git介绍与安装 1.1 Git简介 Git是一个开源的分布式版本控制系统&#xff0c;可以有效、高速地处理从很小到非常大的项目版本管理。 1.2集中式(SVN&#xff09; VS 分布式(git) 集中式版本控制系统&#xff0c;版本库是集中存放在中央服务器的&#xff0c;工作时要先从中央…