mysql与es数据同步

news2024/11/16 16:48:38

同步方案

1. 同步双写

同步双写是一种数据同步策略,它指的是在主数据库(如MySQL)上进行数据修改操作时,同时将这些修改同步写入到ES中。这种策略旨在确保两个数据库之间的数据一致性,并优化系统的读写性能。
在这里插入图片描述

目标
同步双写是指在进行数据写入操作时,同时向两个或多个数据库写入相同的数据。在MySQL与ES的同步场景中,其主要目的是将MySQL中的业务数据实时同步到ES中,以便利用ES的高效查询能力来应对复杂的查询需求,同时减轻MySQL的查询压力。

实现方式

  • 直接同步

在业务代码中,每次对MySQL数据库进行写入操作时,同时执行对ES的写入操作。这种方式简单直接,但可能增加代码的复杂性和出错的风险。

  • 使用中间件

利用消息队列(如Kafka)、数据变更捕获工具(如Debezium)或ETL工具(如Logstash)等中间件来捕获MySQL的数据变更事件,并将这些事件转发到ES进行同步。这种方式可以解耦业务代码与数据同步逻辑,提高系统的可扩展性和可维护性。

  • 触发器与存储过程

在MySQL中设置触发器或编写存储过程,在数据发生变更时自动触发ES的写入操作。这种方式可以减少业务代码的侵入性,但可能会增加MySQL的负担并影响性能。

优缺点

  • 优点

业务逻辑编写简单
业务查询实时性高

  • 缺点

业务硬编码,有需要写入 MySQL 的地方都需要添加写入 ES 的代码
业务代码强耦合度很高
存在双写失败丢数据风险
双写性能较差,本来 MySQL 的性能不是很高,再加一个 ES,系统的性能必然会下降
应用场景
同步双写策略适用于对数据一致性要求较高且需要优化查询性能的场景。例如,在电商系统中,可以将商品信息、订单数据等存储在MySQL中,同时将这些数据同步到ES中以支持复杂的搜索和分析需求。

2. 异步双写

异步双写也是一种数据同步策略,它允许在主数据库(如MySQL)进行数据修改操作时,异步地将这些修改写入到多个数据源(如ES)中。与同步双写相比,异步双写具有降低主数据库写入延迟、提高系统性能以及避免因备库问题而影响主库性能等优点。

在这里插入图片描述

优缺点

  • 优点

提高系统可用性:即使备库出现问题,也不会影响主库的正常运行和数据写入
降低主库写入延迟:由于不需要等待备库确认,主库可以更快地完成写入操作,从而提高系统的整体

  • 性能

多数据源同步:多源写入之间相互隔离,便于扩展更多的数据源写入

  • 缺点

硬编码问题:接入新的数据源需要实现新的消费者代码
系统复杂度增加:需要额外引入了消息中间件
实时性较低:由于MQ是异步消费模型,用户写入的数据不一定可以马上看到,消息挤压等会造成延时
数据一致性风险:由于存在异步处理的时间差,可能会出现主库和备库之间数据暂时不一致的情况。因此,需要采取适当的措施来确保数据的最终一致性。

  • 应用场景

异步双写适用于对数据一致性要求不是特别高但对系统性能要求较高的场景。例如,在电商平台中,可以将用户订单信息、商品库存等关键数据实时同步到主数据库中,同时将一些非关键数据(如用户浏览记录、商品点击量等)异步地同步到备数据库中用于数据分析。这样可以在保证关键数据一致性的同时提高系统的整体性能。

3. Logstash同步

Logstash 是一个开源的服务器端数据处理管道,可以同时从多个来源采集数据,转换数据,然后将数据发送到您指定的存储库中。在实现 MySQL 数据库和 Elasticsearch 之间的数据同步时,Logstash 可以发挥重要作用。

在这里插入图片描述

优缺点

  • 优点

不改变原代码,没有侵入性、没有硬编码
没有业务强耦合,不改变原来程序的性能

  • 缺点

时效性较差,由于是采用定时器根据固定频率查询表来同步数据,尽管将同步周期设置到秒级,也还是会存在一定时间的延迟
对数据库有一定的轮询压力,一种改进方法是将轮询放到压力不大的从库上
无法实现同步删除,需要在Elasticsearch中执行相关命令手动删除
Elasticsearch中的_id字段必须与MySQL中的id字段相同

4. Binlog 实时同步

Binlog实时同步是一种数据库同步技术,主要用于实时捕获并同步数据库中的变更数据。

在这里插入图片描述

Binlog(Binary Log)是MySQL等数据库的一种二进制日志,它记录了数据库中所有更改数据的SQL语句信息,但不包括查询操作。这些变更包括数据的插入、更新、删除等。Binlog主要用于数据库的主从复制和数据恢复。

  • 同步原理

Binlog实时同步的原理基于数据库的复制机制。当数据库发生变更时,这些变更会被写入到Binlog中。同步工具(如Canal、Maxwell等)会监听Binlog的变动,实时捕获这些变更数据,并将其同步到其他数据库或存储系统中。

优缺点

  • 优点

实时性:能够实时捕获和同步数据库的变更数据
一致性:确保源数据库和目标数据库之间数据的一致性
灵活性:支持多种数据库和存储系统之间的同步
可扩展性:可以根据业务需求进行扩展和定制
没有代码侵入、没有硬编码,原有系统不需要任何变化,没有感知

  • 缺点

配置和维护同步工具可能具有一定的复杂性
在高并发场景下,Binlog的写入和同步可能会对数据库性能产生一定影响
同步工具依赖于数据库的Binlog功能,如果数据库版本或配置发生变化,可能需要重新配置同步工具

5. Canal数据同步

Canal是阿里巴巴集团提供的一个开源产品,能够通过解析数据库的增量日志,提供增量数据的订阅和消费功能。Canal的功能原理及详细说明请参见Canal。使用Canal模拟成MySQL的Slave,实时接收MySQL的增量数据binlog,然后通过RESTful API将数据写入到阿里云ES实例或ES Serverless应用中,适用于对数据同步的实时性要求较高的场景。

  • 同步原理

Canal 原理就是伪装成 MySQL 的从节点,从而订阅 master 节点的 Binlog 日志。通过订阅binlog的方式实现数据实时同步,在不影响源数据库的情况下,同步延迟可降至毫秒级别。

在这里插入图片描述

  • 同步流程

Canal 服务端向 MySQL 的 master 节点传输 dump 协议
MySQL 的 master 节点接收到 dump 请求后推送 binlog 日志给 Canal 服务端,解析 binlog 对象(原始为byte流)转成 Json 格式
Canal 客户端通过 TCP 协议或 MQ 形式监听 Canal 服务端,同步数据到ES
执行核心流程
在这里插入图片描述

canal模拟mysql slave的交互协议,伪装自己为mysql slave,向mysql master发送dump协议
mysql master收到dump请求,开始推送binary log给slave(也就是canal)
canal解析binary log对象(原始为byte流)

5. 阿里云 DTS

数据传输服务DTS(Data Transmission Service)是阿里云提供的实时数据流服务,支持关系型数据库(RDBMS)、非关系型的数据库(NoSQL)、数据多维分析(OLAP)等数据源间的数据交互,集数据同步、迁移、订阅、集成、加工于一体,助您构建安全、可扩展、高可用的数据架构。

相对于传统数据迁移或同步工具,DTS为您提供功能更丰富、传输性能更强、易用性更高且安全可靠的服务,帮助您简化复杂的数据交互工作,专注于上层的业务开发。

  • 系统架构

在这里插入图片描述

  • 架构特性

系统高可用数据传输服务内部每个模块都有主备架构,保证系统高可用。容灾系统实时检测每个节点的健康状况,一旦发现某个节点异常,会将链路快速切换到其他节点。

数据源地址动态适配对于数据订阅及同步链路,容灾系统还会监测数据源的连接地址切换等变更操作,一旦发现数据源发生连接地址变更,它会动态适配数据源新的连接方式,在数据源变更的情况下,保证链路的稳定性。

  • 数据同步的工作原理

在这里插入图片描述

DTS可以在两个数据源之间同步正在进行的数据变更。数据同步通常用于OLTP到OLAP的数据传输。数据同步包括以下两个阶段:

  • 同步初始化:DTS先开始收集增量数据,然后将源数据库的结构和存量数据加载到目标数据库。
  • 数据实时同步:DTS同步正在进行的数据变更,并保持源数据库和目标数据库的同步。

DTS Serverless
DTS Serverless实例是数据传输服务DTS(Data Transmission Service)提供的资源规格可以弹性变化的实例。Serverless实例可以适应不断变化的业务需求,使实例资源能够随业务规模的变化自动调整,从而避免资源浪费和控制运维成本。

Serverless是一种动态计费方式,能够根据实例负载情况以分钟级别的动态调整资源,并实时计费(每小时生成一个收费订单),您仅需要为实际用量付费,从而节省大量成本。使用Serverless计费方式购买的实例,被称为Serverless实例。

Serverless实例会根据RPS(Records Per Second)、CPU、内存利用率、网络等因素动态调整资源规格,调整的资源规格以DU(DTS Unit)数体现。在DU数调整后的60秒,系统会检测当前资源规格是否满足负载需求。

在数据传输量波动较大的场景下,普通实例和Serverless实例资源使用和规格变化情况如下图所示:

在这里插入图片描述

由上图可以看到,在业务波动较大的场景下:
普通实例:在波谷期浪费的资源较多,在高峰期资源不足,业务受损。
Serverless实例:实例的资源规格随负载需求动态调整,在波谷期和高峰期都能完全满足业务需求,保证业务不受损。

原文链接:https://mp.weixin.qq.com/s/IQ9qha8ibQALOh0OEy6YcA

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2088404.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

es映射配置(_mapping)

文章目录 1、创建映射字段2、查看映射关系 1、创建映射字段 PUT /索引库名/_mapping {"properties": {"字段名": {"type": "类型","index": true,"store": true,"analyzer": &q…

python-矩阵交换行

[题目描述] 给定一个 55 的矩阵(数学上,一个 rc 的矩阵是一个由 r 行 c 列元素排列成的矩形阵列),将第 n 行和第 m 行交换,输出交换后的结果。输入: 输入共 6 行,前 5 行为矩阵的每一行元素,元素与元素之间…

行业Know How在AI提示词中的重要性

现在AI这玩意儿可是火得不得了,ChatGPT、Claude这些大语言模型简直是让人眼花缭乱。可是呢,你要是不会用,那就跟给猴子一部iPhone有啥区别? 咱得明白,这AI不是神仙,它也是需要"调教"的。 你给它的提示词就像是给小孩子布置作业,说得不清不楚,它可能就给你整出些稀奇…

NPC框架

NPC框架在不同领域可能有不同的含义和应用。在软件开发和游戏设计领域,NPC(Non-Player Character,非玩家角色)框架通常与角色控制、行为模拟和交互逻辑等方面相关。以下是对NPC框架的一种概括性解释: NPC框架概述 定义: NPC框架是指在软件开发或游戏设计中,用于创建、…

深入探索.NET Flyleaf的高级特性与最佳实践

文章目录 前言一、高级特性1.强大的扩展性2.高性能3.易开发4.广泛兼容性5.自定义性强6.多语言支持 二、最佳实践1.定制化界面开发2.性能优化3.插件集成4.跨平台部署5.安全性考虑 三、应用案例1.案例一:个人媒体中心2.案例二:教育平台3.案例三&#xff1a…

国内首批!文心快码获中国信通院评测AI智能编码工具4+级

🎁👉点击进入文心快码 Baidu Comate 官网,体验智能编码之旅,还有超多福利!🎁 国内首批!文心快码获中国信通院评测AI智能编码工具4级 在当下这个快节奏的开发时代,每一个程序员都在追…

爆肝熬夜整理出来的百道Python基础必刷题!(附加源码和答案)

一、前言 一个python入门初学者如何学代码,读代码和写代码,我想学代码不知道方向谁能给我指明一个方向?对于c语言来说,要记得东西其实不多,基本就是几个常用语句加一些关键字而已。你所看到的那些几千甚至上万行的代码,都是用这…

零基础学习Redis(9) -- set类型命令使用

set,即集合和list类似,集合中的每个元素都是string类型,但是集合中的元素是无序且不能重复的 1. 增删查操作 1.1 增加元素 sadd key member1 menber2 ... 在key中添加一个或多个menber1 ,返回添加成功的数量,添加每…

ZW3D二次开发_UI_ZsCc::OptionRadios控件回调

1.ZW3D中的OptionRadios控件如何实现点击触发回调并且获取点击后的值?如下图 2.教程如下: 1)添加OptionRadios控件到表单中 2)增加radio按钮 3)添加回调 4)编写回调函数 int radioCallbackDemo(char* for…

OpenHarmony 实战开发——应用HAP包签名

背景 OpenAtom OpenHarmony(以下简称“OpenHarmony”)应用如果需要对外发布就必须要通过应用签名,DevEco Studio已提供自动签名功能加速应用开发,但自动签名仅限于debug开发,如需对外发布则必须完成release签名。 在…

USR-DR134有人网关如何对接到ThingsPanel

本指南将帮助您使用有人口红串口服务器USR-DR134/USR-DR132将断路器接入ThingsPanel平台。这款创新的超小体积导轨式单串口服务器能够实现RS485/RS232转以太网的双向透传功能,是连接断路器与物联网平台的理想选择。 设备介绍: 口红串口服务器USR-DR134…

Juniper防火墙与交换机trunk配置

拓扑图 防火墙配置 set interfaces ge-0/0/1 description To_INET set interfaces ge-0/0/1 enable set interfaces ge-0/0/1 vlan-tagging set interfaces ge-0/0/1 unit 97 description To_INET set interfaces ge-0/0/1 unit 97 vlan-id 97 set interfaces ge-0/0/1 unit 9…

【小白深度学习入门】【3】卷积层中的Padding填充详解:作用、类型、优缺点

《博主简介》 小伙伴们好,我是阿旭。专注于人工智能、AIGC、python、计算机视觉相关分享研究。 👍感谢小伙伴们点赞、关注! 《------往期经典推荐------》 一、AI应用软件开发实战专栏【链接】 项目名称项目名称1.【人脸识别与管理系统开发…

oceanbase 常用视图查询记录

测试环境:1-1-1 OceanBase 企业版3.2.4.4 查看租户的 Context 和 Modudle 内存 SELECT tenant_id, svr_ip, ctx_id, ctx_name, mod_name, count, round(HOLD / 1024 / 1024, 2) hold_mb, round(used / 1024 / 1024, 2) used_mb FROM oceanbase.__all_virtual_memory…

noge-gyp构建项目踩坑记录

开发环境 系统: win11 node: 19.7.0 npm: 8.3.2 node-gyp: 10.0.2可以不使用windows-build-tools来安装构建工具,手动进行安装 我这边用windows-build-tools安装时候会提示 process.env only accepts a configurable, writable, and enumerable data descriptor. 查了资料后…

设计者模式之访问者模式

1.访问者模式概述 允许你在不改变对象结构中的元素类的前提下,向对象结构中的元素增加新的行为。这种模式将数据结构与作用于结构上的操作分离,从而使得我们可以独立地改变数据结构和操作。 2.访问者模式的组成部分 1)Visitor(访…

Mysql基础练习题 595.大的国家 (力扣)

如果一个国家满足下述两个条件之一,则认为该国是 大国 : 面积至少为 300 万平方公里(即,3000000 km2),或者 人口至少为 2500 万(即 25000000) 编写解决方案找出 大国 的国家名称、…

可视耳勺有没有实用性?揭露五大隐患套路!

随着科技的进步,很多人着重关注自己的个护健康,传统挖耳勺的盲目操作引起鼓膜受损的操作屡见不鲜,很多人摈弃传统挖耳勺,选择了更加直观挖耳的可视耳勺,它能通过高清内窥镜进入耳朵实时反映耳道的情况,受到…

无人机飞手执照,合法飞行不得不考的证

无人机飞手执照(也称为民用无人驾驶航空器系统驾驶员合格证或遥控航空模型飞行员执照)在特定情况下是合法飞行所必需的。以下是关于无人机飞手执照的详细解答: 一、无人机飞手执照的必要性 1. 法规要求:根据《民用无人驾驶航空器…

【安当产品应用案例100集】013-安当透明加密组件实现企业网盘数据安全存储

企业数据存储是企业运营中一个复杂关键的过程,它涉及多个方面,包括选择合适的存储解决方案、实施数据备份与恢复策略、确保数据安全以及优化存储性能等。 本案例中,我们将以企业网盘文件存储和共享为例,介绍一下办公场景和出差场…