CAP理论
CAP是 Consistency、Availability、Partition tolerance 三个词语的缩写,分别表示一致性、可用性、分区容忍性。
它指出一个分布式计算系统不可能同时满足以下三点:
• 一致性(Consistency) :等同于所有节点访问同一份最新的数据副本
• 可用性(Availability) :每次请求都能获取到非错误的响应——但是不保证获取的数据为最新数据
• 分区容忍性(Partition tolerance) :通常分布式系统的各各结点部署在不同的子网,这就是网络分区,分区相当于对通信的时限要求。系统如果不能在时限内达成数据一致性,就意味着发生了分区的情况,必须就当前操作在C和A之间做出选择。
分布式系统必须具备分区容忍性,如果不具备分区容忍性,那就是单体系统。在具备了分区容忍性的前提下,就不能同时具备一致性、可用性。
理解CAP理论的最简单方式是想象系统有两个节点A、B,两节点会同步数据,保持数据一致。
当A节点数据发生变化
要保证一致性,A将数据同步到B的时间段内,服务是不可用的。例如:A、B之间网络断开或B不可用,那么A将数据同步到B的时间就会很久,需要等网络恢复,B重启完成才能保证A、B数据一致。在同步时的时候加锁,此时无法再处理其他请求,这也属于服务不可用。
如果要保证可用性,在A将数据同步到B节点的时间段内,A、B两节点的数据是不一致的。
分布式系统只能是AP或CP两种组合。
AP模式
大部分系统会放弃一致性,追求分区容忍性、可用性。
CP模式
放弃可用性,追求分区容忍性、一致性。zookeeper在选举leader时,会停止服务,直到选举成功之后才会再次对外提供服务。
BASE理论
AP模式在实际应用中较多,AP模式舍弃一致性,保证可用性和分区容忍性,但是在实际生产中绝大多数场景都要现一致性。BASE理论是对CAP理论AP模式的拓展。
BASE 是 Basically Available(基本可用)、Soft state(软状态)和 Eventually consistent (最终一致性)三个短语的缩写。当系统出现故障,允许部分功能不可用但要保证核心功能可用,允许数据在一段时间内是不一致的,但最终达到一致状态。
基本可用:分布式系统在出现故障时,允许部分功能不可用,保证核心功能可用;允许请求响应变慢,例如:请求时间由原来的1S增加2~3S。
软状态:由于不要求强一致性,所以BASE允许系统中存在中间状态(也叫软状态),这个状态不影响系统可用。例如:订单的“支付中”。
最终一致:最终一致是指经过一段时间后,所有节点数据都将会达到一致。例如:今日退款明日到账;通过记录日志、人工排查等方将分布式系统数据改成一致状态。