分布式系统一致性

1 理论

1.1 ACID事务特性

A（原子性）事务的原子操作单元，对数据的修改，要么全部执行，要么全部不执行
C（一致性）在事务开始和完成时，数据必须保持一致状态，相关的数据规则必须应用于事务的修改，以保证数据的完整性，事务结束时，所有的内部数据结构必须正确，仅仅是正确就可以了，并没有要求系统内的数据在总体上处于不变的状态
I（隔离性）保证事务不受外部并发操作的独立环境执行
D（持久性）事务完成之后，对于数据的修改是永久的，即使系统出现故障也能够保持

1.2 一致性等级

强一致性：这种一致性级别是最符合用户直觉的，它要求系统写入什么，读出来的也会是什么，用户体验好，但实现起来往往对系统的性能影响大

弱一致性：这种一致性级别约束了系统在写入成功后，不承诺立即可以读到写入的值，也不久承诺多久之后数据能够达到一致，但会尽可能地保证到某个时间级别（比如秒级别）后，数据能够达到一致状态

最终一致性：最终一致性是弱一致性的一个特例，系统会保证在一定时间内，能够达到一个数据一致的状态。这里之所以将最终一致性单独提出来，是因为它是弱一致性中非常推崇的一种一致性模型，也是业界在大型分布式系统的数据一致性上比较推崇的模型

最终一致性在弱一致性的基础上加上了时间规定，也就是说在某个时间点以后会实现数据的最终一致性。

1.3 CAP分布式理论

C（一致性）一致性是指数据的原子性，在经典的数据库中通过事务来保障，事务完成时，无论成功或回滚，数据都会处于一致的状态，在分布式环境下，一致性是指多个节点数据是否一致；
A（可用性）服务一直保持可用的状态，当用户发出一个请求，服务能在一定的时间内返回结果；
P（分区容忍性）在分布式应用中，可能因为一些分布式的原因导致系统无法运转，好的分区容忍性，使应用虽然是一个分布式系统，但是好像一个可以正常运转的整体

根据CAP理论，一个系统只能满足其中两个。而分布式为了高可用，和分区容灾（高可扩），舍弃了一致性。

分布式系统中：

一致性：主要是指数据在多个副本之间能否保持一致的特性。在一致性的需求下，当一个系统在数据一致的状态下执行更新操作后，应该保证系统的数据仍然处于一直的状态。

可用性：指系统提供的服务必须一直处于可用的状态，对于用户的每一个操作请求总是能够在有限的时间内返回结果。这里的重点是"有限时间内"和"返回结果"。

分区容错性：分布式系统在遇到任何网络分区故障的时候，仍然需要能够保证对外提供满足一致性和可用性的服务，除非是整个网络环境都发生了故障。

1.4 BASE理论

BASE是Basically Available（基本可用）、Soft state（软状态）和Eventually consistent（最终一致性）三个短语的缩写。

BASE理论是对CAP中一致性和可用性权衡的结果，其来源于对大规模互联网系统分布式实践的总结，是基于CAP定理逐步演化而来的。BASE理论的核心思想是：即使无法做到强一致性，但每个应用都可以根据自身业务特点，采用适当的方式来使系统达到最终一致性。

BASE中的三要素：

基本可用：指分布式系统在出现不可预知故障的时候，允许损失部分可用性。系统此时仍然可用，只是服务可能被延迟。

软状态：指允许系统中的数据存在中间状态，并认为该中间状态的存在不会影响系统的整体可用性，即允许系统在不同节点的数据副本之间进行数据同步的过程存在延时

最终一致性：强调的是所有的数据副本，在经过一段时间的同步之后，最终都能够达到一个一致的状态。因此，最终一致性的本质是需要系统保证最终数据能够达到一致，而不需要实时保证系统数据的强一致性。

BASE理论面向的是大型高可用可扩展的分布式系统，和传统的事物ACID特性是相反的

2 paxos协议

2.1 base paxos

流程是这样的：

每台主机都是提议者也是接受者，（否则如果所有的主机都要修改，那么将会没有接受者）

预提案阶段：

每台需要提案的主机，生成一个全局位移的id，作为提案id，可以利用时间戳+本机ip地址的方式。然后将该提案发送给其他所有主机
其他主机收到提案id，以后如果目前保存的id为空，或是小于该id，那么就会将自己保存的提案id改为接收到的提案id，并向该主机回复：等待你的正式提案，表示支持。如果自己已经批准了一个提案，也就是说接受了一个值，那么就回复该值和该值的提案id

批准阶段：

一个提案者获得了一半以上（包括自己）的支持以后，如果收到了接受者表示自己已经批准了一个值，那么从这些接受者中选择一个提案id最大的，选择它的提案值，作为正式提案，带上自己的提案id向自己的支持者广播。如果不够一半以上，那么退出。如
当接受者收到了正式提案，如果提案id大于等于自己保存的，那么就接受该批准。并回复提案者。如果提案id小于自己保存的，那么就回复提案者，让其中断提案。

当一个提案者收到了一半以上的批准以后，形成一个多数派，向外广播表示某个值已经被确定。

情形：

批准阶段，如果没有接收到足够支持，那么退出本轮。不在参与。批准阶段，在提交正式提案的时候，如果已经有接受者接受了别的值，那么提交者中断本次提案，同时向已经批准了自己的提案的接受者，表示我的提案已经终止了，请放弃批准。然后重新生成一个提案ID重新选举。

2.2 multi paxos

Multi Paxos先运行一次完整的paxos算法选举出leader，唯一的leader，在leader有效期内所有的议案都只能由leader发起。

Multi-Paxos协议并不假设全局必须只能有唯一的leader来生成日志，它允许有多个“自认为是leader的server”来并发生成日志，这样的场景即退化为Basic-Paxos。通过lease机制，保持这个leader的身份，使得其他proposer不再发起提案，这样就进入了一个leader任期。在leader任期中，由于没有了并发冲突，这个leader在对后续的日志进行投票时，不必每次都向多数派询问logID，也不必执行prepare阶段，直接执行accept阶段即可。

2.3 fast paxos

fast paxos 则直接假设自己就是一个leader，他的提案id=0，如果批准的大于一半以上，则向外广播确定了某个值，如果小于一半以上，表示发生冲突，回退到base paxos

3 raft协议

动画介绍

所有主机存在三种状态，leader，follow，和candidate.

follow 完全被动的接受leader的消息，当超时一段时间没接受到消息就认为leader没了，那么自己会成为candidate，准备自己竞选leader

刚开机是所有的主机都是leader，随着时间推移，没有接到leader的消息，部分主机开始退化为leader，然后向其他的所有节点开始拉票，当超过一半的节点同意以后，那么称为leader。同意的节点称为该节点的follow。进行心跳检测。

当需要同步日志的时候，leader向所有的follow广播，当收到一半以上的节点确认该条日志的时候，leader在发送一条commit消息，表示该条日志复制成功。

当网络故障，分割了主机的时候，仍然需要一半以上的主机确认才能写入日志。

可以设置不同节点的超时时间不同，可以避免同一时间多个节点同时竞争leader。但是并不能完全的避免，因此每台机器，在收到不超过一般同意以后，会延时一段时间进行选举，这个延时时间各个机器再次不同。

4 分布式事务

参考文章

分布式事务是指会涉及到操作多个数据库的事务。其实就是将对同一库事务的概念扩大到了对多个库的事务。目的是为了保证分布式系统中的数据一致性。分布式事务处理的关键是必须有一种方法可以知道事务在任何地方所做的所有动作，提交或回滚事务的决定必须产生统一的结果（全部提交或全部回滚）.

由于存在事务机制，可以保证每个独立节点上的数据操作可以满足ACID。但是，相互独立的节点之间无法准确的知道其他节点中的事务执行情况.

让分布式部署的多台机器中的数据保持一致性，那么就要保证在所有节点的数据写操作，要不全部都执行，要么全部的都不执行。但是，一台机器在执行本地事务的时候无法知道其他机器中的本地事务的执行结果。所以他也就不知道本次事务到底应该commit还是 roolback。所以，常规的解决办法就是引入一个“协调者”的组件来统一调度所有分布式节点的执行。

XA规范

X/Open DTP 模型（ 1994 ）包括:应用程序（ AP ）、事务管理器（ TM ）、资源管理器（ RM ）、通信资源管理器（ CRM ）四部分.。

一般，常见的事务管理器（ TM ）是交易中间件，常见的资源管理器（ RM ）是数据库，常见的通信资源管理器（ CRM ）是消息中间件。

通常把一个数据库内部的事务处理，如对多个表的操作，作为本地事务看待。数据库的事务处理对象是本地事务，而分布式事务处理的对象是全局事务。所谓全局事务，是指分布式事务处理环境中，多个数据库可能需要共同完成一个工作，这个工作即是一个全局事务

例如，一个事务中可能更新几个不同的数据库。对数据库的操作发生在系统的各处但必须全部被提交或回滚。此时一个数据库对自己内部所做操作的提交不仅依赖本身操作是否成功，还要依赖与全局事务相关的其它数据库的操作是否成功，如果任一数据库的任一操作失败，则参与此事务的所有数据库所做的所有操作都必须回滚。一般情况下，某一数据库无法知道其它数据库在做什么，因此，在一个 DTP 环境中，交易中间件是必需的，由它通知和协调相关数据库的提交或回滚。而一个数据库只将其自己所做的操作（可恢复）影射到全局事务中。

二阶提交协议和三阶提交协议就是根据这一思想衍生出来的。可以说二阶段提交其实就是实现XA分布式事务的关键(确切地说：两阶段提交主要保证了分布式事务的原子性：即所有结点要么全做要么全不做)。

3.1 二阶段提交

两个阶段是指：第一阶段：准备阶段(投票阶段)和第二阶段：提交阶段（执行阶段）

准备阶段

事务协调者(事务管理器)给每个参与者(资源管理器)发送Prepare消息，每个参与者要么直接返回失败(如权限验证失败)，要么在本地执行事务，写本地的redo和undo日志，但不提交。

协调者节点向所有参与者节点询问是否可以执行提交操作(vote)，并开始等待各参与者节点的响应。
参与者节点执行询问发起为止的所有事务操作，并将Undo信息和Redo信息写入日志。
各参与者节点响应协调者节点发起的询问。如果参与者节点的事务操作实际执行成功，则它返回一个”同意”消息；如果参与者节点的事务操作实际执行失败，则它返回一个”中止”消息。

提交阶段

如果协调者收到了参与者的失败消息或者超时，直接给每个参与者发送回滚(Rollback)消息；否则，发送提交(Commit)消息；参与者根据协调者的指令执行提交或者回滚操作，释放所有事务处理过程中使用的锁资源。当协调者节点从所有参与者节点获得的相应消息都为”同意”时:

协调者节点向所有参与者节点发出”正式提交(commit)”的请求，
参与者节点正式完成操作，并释放在整个事务期间内占用的资源
参与者节点向协调者节点发送”完成”消息
协调者节点受到所有参与者节点反馈的”完成”消息后，完成事务

当收到参与节点的终止消息的时候，步骤与上面的类似。

二阶段提交的问题

同步阻塞问题。执行过程中，所有参与节点都是事务阻塞型的。当参与者占有公共资源时，其他第三方节点访问公共资源不得不处于阻塞状态。
单点故障。由于协调者的重要性，一旦协调者发生故障。参与者会一直阻塞下去。尤其在第二阶段，协调者发生故障，那么所有的参与者还都处于锁定事务资源的状态中，而无法继续完成事务操作。（如果是协调者挂掉，可以重新选举一个协调者，但是无法解决因为协调者宕机导致的参与者处于阻塞状态的问题）
数据不一致。在二阶段提交的阶段二中，当协调者向参与者发送commit请求之后，发生了局部网络异常或者在发送commit请求过程中协调者发生了故障，这回导致只有一部分参与者接受到了commit请求。而在这部分参与者接到commit请求之后就会执行commit操作。但是其他部分未接到commit请求的机器则无法执行事务提交。于是整个分布式系统便出现了数据部一致性的现象。
二阶段无法解决的问题：协调者再发出commit消息之后宕机，而唯一接收到这条消息的参与者同时也宕机了。那么即使协调者通过选举协议产生了新的协调者，这条事务的状态也是不确定的，没人知道事务是否被已经提交。

3.2 三阶段提交

三阶段提交有两个改动点：

引入超时机制。同时在协调者和参与者中都引入超时机制。
在第一阶段和第二阶段中插入一个准备阶段。保证了在最后提交阶段之前各参与节点的状态是一致的。

CanCommit阶段

3PC的CanCommit阶段其实和2PC的准备阶段很像。协调者向参与者发送commit请求，参与者如果可以提交就返回Yes响应，否则返回No响应。

PreCommit阶段

协调者根据参与者的反应情况来决定是否可以记性事务的PreCommit操作。根据响应情况，有以下两种可能。

假如协调者从所有的参与者获得的反馈都是Yes响应，那么就会执行事务的预执行。

假如有任何一个参与者向协调者发送了No响应，或者等待超时之后，协调者都没有接到参与者的响应，那么就执行事务的中断。

doCommit阶段

该阶段进行真正的事务提交，也可以分为以下两种情况。

执行提交：

发送提交请求协调接收到参与者发送的ACK响应，那么他将从预提交状态进入到提交状态。并向所有参与者发送doCommit请求。
事务提交参与者接收到doCommit请求之后，执行正式的事务提交。并在完成事务提交之后释放所有事务资源。
响应反馈事务提交完之后，向协调者发送Ack响应。
完成事务协调者接收到所有参与者的ack响应之后，完成事务。

中断事务协调者没有接收到参与者发送的ACK响应（可能是接受者发送的不是ACK响应，也可能响应超时），那么就会执行中断事务。

发送中断请求协调者向所有参与者发送abort请求
事务回滚参与者接收到abort请求之后，利用其在阶段二记录的undo信息来执行事务的回滚操作，并在完成回滚之后释放所有的事务资源。
反馈结果参与者完成事务回滚之后，向协调者发送ACK消息
中断事务协调者接收到参与者反馈的ACK消息之后，执行事务的中断。

在doCommit阶段，如果参与者无法及时接收到来自协调者的doCommit或者rebort请求时，会在等待超时之后，会继续进行事务的提交。（其实这个应该是基于概率来决定的，当进入第三阶段时，说明参与者在第二阶段已经收到了PreCommit请求，那么协调者产生PreCommit请求的前提条件是他在第二阶段开始之前，收到所有参与者的CanCommit响应都是Yes。（一旦参与者收到了PreCommit，意味他知道大家其实都同意修改了）所以，一句话概括就是，当进入第三阶段时，由于网络超时等原因，虽然参与者没有收到commit或者abort响应，但是他有理由相信：成功提交的几率很大。）

也就是说即使第三阶段超时，但是由于第二阶段的存在，因此有理由认为，各个参与者是可以提交成功的。

3.3 2PC与3PC的区别

相对于2PC，3PC主要解决的单点故障问题，并减少阻塞，因为一旦参与者无法及时收到来自协调者的信息之后，他会默认执行commit。而不会一直持有事务资源并处于阻塞状态。但是这种机制也会导致数据一致性问题，因为，由于网络原因，协调者发送的abort响应没有及时被参与者接收到，那么参与者在等待超时之后执行了commit操作。这样就和其他接到abort命令并执行回滚的参与者之间存在数据不一致的情况。
无论是二阶段提交还是三阶段提交都无法彻底解决分布式的一致性问题。世上只有一种一致性算法，那就是Paxos，所有其他一致性算法都是Paxos算法的不完整版。