详细解析msyql和消息队列数据一致性问题

news2026/2/12 11:47:48

前言

保持系统数据同步（双写问题）

消息队列消息丢失的问题

总结

前言

在当今互联网飞速发展的时代，随着业务复杂性的不断增加，消息队列作为一种重要的技术手段，越来越多地被应用于各种场景。它们不仅能有效解耦系统各部分之间的联系，还能够平衡流量峰值，提高系统的整体性能。

在本文中，我将重点分析一家医美公司的团队在使用消息队列时的奇葩做法。这家公司的技术团队选择了 Kafka 作为主要的消息队列，但在某些情况下却出现了数据未能成功消费的问题。为了应对这个挑战，他们又引入了 RocketMQ，并通过其延迟机制来弥补之前的不足。然而，这样的做法是否合理？这背后又隐藏着哪些技术思考与团队协作的缺陷？

接下来，我们将深入探讨这家公司的消息队列应用，以及其中的潜在问题与改进方案。

下面是我画的他们业务的一个架构图：

<图一>

在这个架构图中，数据首先从MySQL数据库流入“业务1”，并通过Kafka进行消息传递。然后，数据被传递到“业务2”进行处理。处理完成后，系统会判断是否成功。如果成功，则数据继续存储到MySQL中；如果未成功处理，则会将消息发送到RocketMQ进行重新处理。

这个架构是非常简单，加入了 RocketMQ 就一个诉求就是消息不丢失，真的能做到吗？其实有几个问题，第一个问题系统同步也就是双重写入问题第二个问题就是加入RocketMQ 和不合理，下面我们逐一讲解。

保持系统数据同步（双写问题）

我们业务系统有两个双写：业务1的1和2。业务2的5和6。图中这样的设计看起来很简单但是有一些严重的问题。

先用一个流程图来说明双写严重的问题：

<图二>

在这个例子中,两个客户同时想要更新项X:

客户端l 想要将值设置为A,客户端2 想要设置为B 。两个客户端首先将新值写入数据库,然后将其写入消息队列中。由于实机不凑巧,这些请求交叉了:数据库首先看到来自客户端1 的写入,将值设置为A,然后看到来自客户端2 的写入,将值设置为B ,因此数据库中的最终值为B 。而消息队列首先看到来自客户端2 的写人,然后才是客户端1 的写人,所以消息队列中的最终值是A。这两个系统将永远不一致,即使目前还没有发生错误。

除非有一些额外的并发监测机制，或者加入版本向量或者加入分布式锁。否则甚至不会注意到并发写入，一个值悄悄覆盖另一个值。

我们可以总结到双重写入的一个问题就是值会可能被覆盖。

还有一个很难发现的问题就是客户端1或者客户端2写入数据库成功了但是写入消息队列失败了，这不是一个并发问题，这是一个容错问题，也会造成两个系统相互不一致的结果，这是致命的。确保数据库和消息队列都成功或者失败是个原子提交问题，需要用到2pc 等分布式事务相关的技术。

这两个问题都是致命的，必须解决，数据库的主从复制给我了启发，不管如何并发，从库总是订阅主库的binglog,保证了数据的一致性。我们发现我们这个例子其实可以看成两个主库的双写问题，有没有一种技术把两个主库的双写问题转成主从机制呢？那么问题不就解决了吗？还真的是有这种方案，就是CDC 技术。于是我的架构就发生了一种变化。

<图三>

CDC 技术是对系统同步的里程碑，他借助了主从的思想，软件开发工程师开始认识到日志的重要性，再也不认为，数据库复制日志的问题被认为是数据库内部实现细节，他们开始尝试解析日志，捕获数据的变化，写入时立即将更改作为一种流来发布，那么业务只需要消费这些数据就可以了。现在很多数据库都提供了CDC解决方法。mysql 在国内用的最多的是canal。前面讲过就是canal作为一个从库似的获取主库的数据，并且她集成了快照技术也就是说会记录位置的偏移量，以便在快照处理完成后，知道哪一点开始应用修改。canal 具体问题，可以参考相关的文档。