如何设计计算高可用架构？

1、引言

计算高可用的本质是通过冗余来规避部分故障的风险，由于单台服务器无论如何都无法达到这个目的，因此计算高可用的设计思想很简单：通过增加更多服务器来达到计算高可用。
计算高可用的设计复杂度主要体现在任务管理，即当任务在某台服务器上执行失败后，如何将任务重新分配到新的服务器进行执行。因此有以下两个关键点。

哪些服务器可以执行任务
第一种方式和计算高性能中的集群类似，每个服务器都可以执行任务。
第二种方式和存储高可用中的集群类似，只有特定服务器（通常叫“主机”）可以执行任务。当执行任务的服务器故障后，系统需要挑选新的服务器来执行任务。
任务如何重新执行
第一种策略是对于已经分配的任务即使执行失败也不做任何处理，系统只需要保证新的任务能够分配到其他非故障服务器上执行即可。
第二种策略是设计一个任务管理器来管理需要执行的计算任务，服务器执行完任务后，需要向任务管理器反馈任务执行结果，任务管理器根据任务执行结果来决定是否需要将任务重新分配到另外的服务器上执行。
注：“任务管理器”是一个逻辑概念，并不一定要求存在一个独立的任务分配模块。
下面将介绍常见的计算高可用架构：主备、主从和集群

2、主备

主备架构师计算高可用最简单的架构，和存储高可用的主备赋值架构类似，基本的架构如下：

主备方案的详细设计：

主机执行所有计算任务。
当主机故障（例如，主机宕机）时，任务分配器不会自动将计算任务发送给备机，此时系统处于不可用状态。
如果主机能够恢复（不管是人工恢复还是自动恢复），任务分配器继续将任务发送给主机。
如果主机不能够恢复（例如，机器硬盘损坏，短时间内无法恢复），则需要人工操作，将备机升为主机，然后让任务分配器将任务发送给新的主机（即原来的备机）；同时，为了继续保持主备架构，需要人工增加新的机器作为备机。

根据备机状态，主备架构又可细分为冷备架构和温备架构
冷备：备机上程序包、配置文件等都准备好，但备机上的业务系统并没有启动，当主机故障后，需要人工将备机的业务系统启动，并将任务分配器的任务请求切换发送给备机。
温备：备机上的业务系统已经启动，只是不对外提供服务，主机故障后，人工只需要将任务分配器的任务请求切换发送到备机即可。冷备可以节省一定的能源，但温备能够大大减少手工操作时间，因此一般情况下推荐用温备的方式。

计算高可用的主备架构也比较适合与内部管理系统、后台管理系统这类使用人数不多、使用频率不高的业务，不太适合在线的业务。

3、主从

计算高可用的主从架构中的从机也是要执行任务的。任务分配器需要将任务进行分类，确定哪些任务可以发送给主机执行，哪些任务可以发送给备机执行，其基本的架构示意图如下：

主从方案详细设计：

正常情况下，主机执行部分计算任务（如图中的“计算任务 A”），备机执行部分计算任务（如图中的“计算任务 B”）。
当主机故障（例如，主机宕机）时，任务分配器不会自动将原本发送给主机的任务发送给从机，而是继续发送给主机，不管这些任务执行是否成功。
如果主机能够恢复（不管是人工恢复还是自动恢复），任务分配器继续按照原有的设计策略分配任务，即计算任务 A 发送给主机，计算任务 B 发送给从机。
如果主机不能够恢复（例如，机器硬盘损坏，短时间内无法恢复），则需要人工操作，将原来的从机升级为主机（一般只是修改配置即可），增加新的机器作为从机，新的从机准备就绪后，任务分配器继续按照原有的设计策略分配任务。
主从架构与主备架构相比，优缺点有：
优点：主从架构的从机也执行任务，发挥了从机的硬件性能。
缺点：主从架构需要将任务分类，任务分配器会复杂一些。

4、集群

主备架构和主从架构都是通过冗余一台服务器来提升可用性，且若主机发生故障需要人工干预进行主备或主从的切换。虽然简单，但其主要问题就是：人工操作效率低、容易出错、不能及时处理故障等。针对可用性更加严格的场景中，需要系统自动完成切换操作，这就是集群方案。
更加集群汇总服务节点角色的不同，可分为两类：一类是对称集群（集群中每个服务器的角色都是一样的，都可以执行所有任务）；另一类是非对称集群（集群中的服务器分为多个不同的角色，不同的角色执行不同的任务）。

对称集群
对称集群更通俗的叫法是负载均衡集群,其架构示意图如下：

负载均衡集群详细设计：

正常情况下，任务分配器采取某种策略（随机、轮询等）将计算任务分配给集群中的不同服务器。
当集群中的某台服务器故障后，任务分配器不再将任务分配给它，而是将任务分配给其他服务器执行。
当故障的服务器恢复后，任务分配器重新将任务分配给它执行。

负载均衡集群的设计关键点在于两点：

任务分配器需要选取分配策略。
任务分配器需要检测服务器状态。

任务分配策略轮询和随机应该就够了；
至于服务器状态，既需要检测服务器状态（如服务器是否宕机、网络是否正常），还要检测任务的执行状态（任务是否卡死、是否执行时间过长等），常用的做法是任务分配器和服务器之间通过心跳来传递信息，包括服务器信息和任务信息，然后根据实际情况来确定状态判断条件

非对称集群
非对称集群中不同服务器的角色是不同的，不同角色的服务器承担不同的职责。非对称集群的基本架构示意图如下：

非对称集群架构详细设计：

集群会通过某种方式来区分不同服务器的角色。
任务分配器将不同任务发送给不同服务器。
当指定类型的服务器故障时，需要重新分配角色。

非对称集群相比负载均衡集群，设计复杂度主要体现在两个方面：

任务分配策略更加复杂：需要将任务划分为不同类型并分配给不同角色的集群节点。
角色分配策略实现比较复杂

PS：
计算高可用架构从形式上和存储高可用架构看上去几乎一样，它们的复杂度是一样的么？

计算高可用架构，主要解决当单点发生故障后，原本发送到故障节点的任务，任务如何分发给非故障节点，根据业务特点选择分发和重试机制即可，不存在数据一致性问题，只需要保证任务计算完成即可
存储高可用架构，解决的问题是当单点发生故障了，任务如何分发给其他非故障节点，以及如何保障数据的一致性问题。
所以存储的高可用比计算的高可用的设计更为复杂。