一、简介
在项目的开发与运维过程中,MySQL 是业务数据库的核心角色,以其强大的事务处理能力和数据完整性保障,支撑着系统的稳定运行。随着数据量的急剧增长和查询复杂度的不断提升,单一依赖 MySQL 进行高效的数据检索显得日益吃力,尤其是在面对海量数据的复杂查询场景时,性能显而易见的降低。
为了有效缓解这一问题,通常采用读写分离的策略,将 Elasticsearch(简称 ES)引入作为专门的查询数据库。ES 以其卓越的搜索性能、灵活的数据模式以及强大的可扩展性,成为处理复杂查询需求的理想选择。
确保 MySQL 数据库与 ES 之间的数据同步。数据同步不仅关乎数据的实时性和准确性,更是保障系统稳定性和用户体验的基本。因此,需要精心设计与实施一套高效、可靠的数据同步方案。
数据同步的实现方式多种多样,包括 Logstash、Kafka Connec等工具进行实时数据捕获与传输,或通过定时任务(如 Cron Job)结合 SQL 查询与批量导入的方式实现数据的定期同步。
二、方案
1. 同步
同步双写是指在进行数据写入操作时,同时向两个或多个数据库写入相同的数据。在MySQL与ES的同步场景中,其主要目的是将MySQL中的业务数据实时同步到ES中,利用ES的高效查询能力来应对复杂的查询需求,同时减轻MySQL的查询压力。
实现方式:
直接同步:
每次对MySQL数据库进行写入操作时,同时执行对ES的写入操作。这种方式简单直接,但可能增加代码的复杂性和出错的风险。
使用中间件:
利用消息队列(如Kafka)、数据变更捕获工具(如Debezium)或ETL工具(如Logstash)等中间件来捕获MySQL的数据变更事件,并将这些事件转发到ES进行同步。这种方式可以解耦业务代码与数据同步逻辑,提高系统的可扩展性和可维护性。
触发器与存储过程:
在MySQL中设置触发器或编写存储过程,在数据发生变更时自动触发ES的写入操作。这种方式可以减少业务代码的侵入性,但可能会增加MySQL的负担并影响性能。
优缺点分析:
优点:逻辑编写简单;查询实时性高;
缺点:硬编码多,只要需要插入数据时就要同步到ES;高耦合;存在数据丢失;系统性能降低;
应用场景:
同步双写策略适用于对数据一致性要求较高且需要优化查询性能的场景。例如,在电商系统中,可以将商品信息、订单数据等存储在MySQL中,同时将这些数据同步到ES中以支持复杂的搜索和分析需求。
2. 异步
异步双写允许在主数据库(如MySQL)进行数据修改操作时,异步地将这些修改写入到多个数据源(如ES)中。与同步双写相比,异步双写具有降低主数据库写入延迟、提高系统性能以及避免因备库问题而影响主库性能等优点。
优缺点分析:
优点:
高可用:即使备库出现问题,也不会影响主库的正常运行和数据写入;
提升性能:由于不需要等待备库确认,主库可以更快地完成写入操作,从而提高系统的整体性能;
隔离性:多源写入之间相互隔离,便于扩展更多的数据源写入;
缺点:
系统复杂度增加:需要额外引入了消息中间件;
实时性较低:由于MQ是异步消费模型,用户写入的数据不一定可以马上看到,消息挤压等会造成延时;
数据一致性风险:由于存在异步处理的时间差,可能会出现主库和备库之间数据暂时不一致的情况。因此,需要采取适当的措施来确保数据的最终一致性。
应用场景:
异步双写适用于对数据一致性要求不是特别高但对系统性能要求较高的场景。例如,在电商平台中,可以将用户订单信息、商品库存等关键数据实时同步到主数据库中,同时将一些非关键数据(如用户浏览记录、商品点击量等)异步地同步到备数据库中用于数据分析。这样可以在保证关键数据一致性的同时提高系统的整体性能。
3.logstash同步
Logstash 是一个开源的服务器端数据处理管道,可以同时从多个来源采集数据,转换数据,然后将数据发送到您指定的存储库
中。在实现 MySQL 数据库和 Elasticsearch 之间的数据同步时,Logstash 可以发挥重要作用。
优缺点分析:
优点:不改变原代码,没有侵入性、没有硬编码;低耦合;
缺点:时效性较差,由于是采用定时器根据固定频率查询表来同步数据,尽管将同步周期设置到秒级,也还是会存在一定时间的延迟;对数据库有一定的轮询压力,一种改进方法是将轮询放到压力不大的从库上;无法实现同步删除,需要在Elasticsearch中执行相关命令手动删除;Elasticsearch中的_id字段必须与MySQL中的id字段相同;
4.阿里云DTS
数据传输服务DTS(Data Transmission Service)是阿里云提供的实时数据流服务,支持关系型数据库(RDBMS)、非关系型的数据库(NoSQL)、数据多维分析(OLAP)等数据源间的数据交互,集数据同步、迁移、订阅、集成、加工于一体,助您构建安全、可扩展、高可用的数据架构。
相对于传统数据迁移或同步工具,DTS为您提供功能更丰富、传输性能更强、易用性更高且安全可靠的服务,帮助您简化复杂的数据交互工作,专注于上层的业务开发。
特性
系统高可用数据传输服务内部每个模块都有主备架构,保证系统高可用。容灾系统实时检测每个节点的健康状况,一旦发现某个节点异常,会将链路快速切换到其他节点。
数据源地址动态适配对于数据订阅及同步链路,容灾系统还会监测数据源的连接地址切换等变更操作,一旦发现数据源发生连接地址变更,它会动态适配数据源新的连接方式,在数据源变更的情况下,保证链路的稳定性。
DTS可以在两个数据源之间同步正在进行的数据变更。数据同步通常用于OLTP到OLAP的数据传输。数据同步包括以下两个阶段:
同步初始化:DTS先开始收集增量数据,然后将源数据库的结构和存量数据加载到目标数据库。
数据实时同步:DTS同步正在进行的数据变更,并保持源数据库和目标数据库的同步。
DTS Serverless
DTS Serverless实例是数据传输服务DTS(Data Transmission Service)提供的资源规格可以弹性变化的实例。Serverless实例可以适应不断变化的业务需求,使实例资源能够随业务规模的变化自动调整,从而避免资源浪费和控制运维成本。
Serverless是一种动态计费方式,能够根据实例负载情况以分钟级别的动态调整资源,并实时计费(每小时生成一个收费订单),您仅需要为实际用量付费,从而节省大量成本。使用Serverless计费方式购买的实例,被称为Serverless实例。
Serverless实例会根据RPS(Records Per Second)、CPU、内存利用率、网络等因素动态调整资源规格,调整的资源规格以DU(DTS Unit)数体现。在DU数调整后的60秒,系统会检测当前资源规格是否满足负载需求。