分布式事务理论加实战

分布式事务

为什么需要分布式事务

随着互联网的快速发展，业务越来越复杂，一个完整的业务往往需要调用多个子服务，涉及的数据也越来越多。传统的系统难以支撑，就出现了分布式系统，而分布式系统又带来了数据一致性的问题，从而产生了分布式事务。

什么叫分布式事务

分布式条件下，多个节点操作的整体事务一致性。

特别是在微服务场景下，业务A和业务B关联，如果事务A成功了，事务B失败了。由于跨系统，事务B无法通知到事务A，就造成了数据的不一致。

如何实现分布式下的一致性

强一致性
1. XA
弱一致性
1. 不用事务，业务侧补偿冲正
2. 柔性事务，使用一套事务框架保证最终一致性的事务。

一、强一致性事务

1. XA分布式事务

在学习XA之前，我们先了解一下DTP模型，该模型规范了分布式事务的模型设计

应用程序（Application Program）:定义事务边界（即事务的开始和结束），并且在事务边界内对资源进行操作
资源管理器（Resource Manager）：如数据库、文件系统等。并提供访问资源的方式
事务管理器（Transaction Manager)：负责分配事务唯一标识，监控事务的执行进度，并负责事务的提交、回滚等。

XA协议是由 X/Open 组织提出的，作为资源管理器与事务管理器的接口标准.目前Oracle、DB2、MySQL的InnoDB存储引擎都对XA进行了支持。XA接口提供资源管理器与事务管理器之间进行通信的标准接口。XA协议包括两套函数，以xa_开头的及以ax_开头的。

xa_start：负责开启或者恢复一个事务分支
xa_end：负责取消当前线程和事务分支的关联
xa_prepare：询问RM是否准备好提交事务分支
xa_commit：通知RM提交事务分支
xa_rollback：通知RM回滚事务分支
xa_recover：列出所有prepare的XA事务

MySQL 从5.0.3开始支持 InnoDB 引擎的 XA 分布式事务，MySQL Connector/J 从5.0.0版本开始支持 XA

MySQL XA事务状态

完整的XA事务流程

XA事务异常情况

业务SQL执行期间，某个RM崩溃怎么处理？

答：通知回滚。
2. 全部prepare后，某个RM崩溃怎么处理？

答：5.7以前崩溃的那个RM会丢失事务，导致别人都提交了，他被回滚了。5.7之后修复了，重连后还能继续提交。

commit时，某个RM崩溃了怎么办？

答：RM恢复之后重试，要是重试还是失败就要发送告警，人工进行干预。

XA协议存在的问题

同步阻塞问题

全局事务内部包含了多个独立的事务分支，这一组事务分支，这一组事务分支要不都成功，要不都失败。各个事务分支的ACID特性构成了全局事务的ACID特性。那么mysql的效率也会降低
2. 单点故障

TM是单点的，一旦TM发生故障，参与者RM会一直阻塞下去。尤其再第二阶段，TM发生故障，那么所有的RM都还处于锁定资源的状态中，而无法完成事务操作。成熟的XA框架需要考虑TM的高可用性。

数据不一致

在提交阶段的时候，TM向RM发送commit请求后，发生了局部网络异常或者在发送commit请求的时候TM故障了，会导致部分RM收到commit请求并执行，而部分RM未收到commit请求则无法进行事务提交，就会造成数据不一致的情况。

支持XA的框架

XA方面的框架，比较推荐Atomikos和narayana

二、柔性事务

如果将实现了ACID的事务要素的事务称为刚性事务的话，那么基于BASE理论的事务则称为柔性事务。

BASE:

Basically Available （基本可用）
Soft state(柔性状态) 允许系统状态更新有一定的延时
Eventually consistent(最终一致性)

柔性事务常见模式

1. TCC

TCC模式将每个服务的业务操作分为两个阶段。第一个阶段检查并预留相关资源（Try），第二个阶段根据Try状态，如果都成功，则进行Comfirm操作，如果任意一个发生错误，则全部Cancel。

Try：完成所有业务检查，预留资源
Confirm：正在执行的业务逻辑，不做业务检查，只是要Try阶段预留的业务资源。因此，只要Try成功，Confirm基本能成功。另外Confirm需要满足幂等性。
Cancel：释放Try阶段的资源。同样Cancel也需要满足幂等性。

TCC不依赖RM对分布式事务的支持，而是通过对业务逻辑的分解来实现分布式事务。对业务有侵入性

TCC需要注意的问题：

允许空回滚

Cancel的时候要判断Try有没有完成，没完成就不做Cancel
2. 防悬挂控制

如果网络等数据库还没收到Try的执行命令，Cancel命令先收到了。就会导致这个Try命令就没有相对于的Cancel操作了，会一直悬挂在那里。

解决方法：

可以控制Try和Cancel的顺序，让Try在前面
先收到Cancel的时候，记录一下。再收到Try的时候就知道这个操作是要取消的，那Try就没必要执行了。

幂等设计

commit操作可能会被重试，所以需要幂等性。

2. SAGA

Saga模式没有Try阶段，直接提交事务。复杂情况下，对回滚操作的设计要求较高。

3. AT

AT就是通过自动生成反向SQL的方式进行回滚。

在第一阶段的时候执行业务SQL，并且将SQL造成的影响保留下来。

第二阶段如果发生异常，就会通过保留的影响用反向SQL恢复回去。

缺点：生成反向SQL如果是在特别复杂的情况下，可能会处理不了。

4. 可靠消息最终一致性

服务A发送一个prepared消息给mq,如果发送失败则取消操作
消息发送成功则开始执行本地事务
本地事务执行成功就向mq发送确认消息,执行失败就发送回滚消息
如果mq没有接收到确认消息,mq会去轮询未确认的prepared消息,然后去查询服务A是否执行成功,然后确定是重试还是回滚
如果mq成功收到确认消息,那么他会被服务B消费到,并且服务B可以通过ACK机制保证服务B执行成功.
如果服务B实在是无法执行成功,可以通知服务A回滚,或者发送报警消息让手工补偿.

5. 本地消息表

服务A执行业务代码,并往自己的消息表插入一条数据
服务A执行成功后,会向MQ发送一条数据,去调用服务B的方法
服务B收到后,先往自己的消息表插入一条数据,然后去执行业务代码
如果服务B业务代码执行成功,那么更新自己的消息表的状态并且通知服务A更新消息表状态
如果服务B业务代码执行失败,那么服务B不用做什么
服务A会有一个定时任务定时轮询自己的消息表,将失败的消息再发给MQ,让服务B重新在执行一次(服务B保证接口幂等性)
通过不断的重试,保证最终一致性

这个方案大量使用来消息表,对于高并发的场景不太友好.

6. 最大努力型通知

类似银行的支付回调，会多次回调直到成功。

这种方案适用于允许有些事务失败的情况,如记录日志等.

三、分布式事务框架

1. Seata

Seata是阿里巴巴和蚂蚁金服联合打造的分布式事务框架。其AT事务的目标是让开发者像使用本地事务一样使用分布式事务。

核心组件：

TM 事务管理者：开启提交或回滚全局事务
TC 事务协调者：维护全局和分支事务的状态，指示全局提交或回滚。
RM 资源管理者：管理执行分支事务上的资源，向TC注册分支事务、上报分支事务状态、控制分支事务的提交或回滚。

Seata管理的分布式事务的典型声明周期：

TM要求TC开始一个全新的全局事务。
TC生成一个代表该全局事务的XID。XID贯穿整个微服务的调用链。
TM要求TC提交或回滚XID对应的全局事务。
TC驱动XID对应的全局事务下的所有分支事务完成提交或回滚。

Seata支持 XA、TCC、Saga模式，但支持的主要方式是 AT。

2. ShardingSphere对分布式事务的支持

ShardingSphere 通过整合常用的几个事务开源实现，如Atomkkos、Narayana,为本地事务、两阶段事务和柔性事务提供统一的分布式事务接口，并弥补当前方案的不足，提供一站式的分布式事务解决方案是ShardingSphere的设计目标。

使用实例：https://gitee.com/mmcLine/spring-cloud-transaction

里面readme有详细的项目介绍。

书山有路勤为径，学海无涯苦作舟