微服务架构之服务容错

服务容错的缘由

　　这其实是高并发带来的问题，在微服务架构中，我们将业务拆分为一个个服务，服务于服务之间可以互相调用，但是由于网络原因或者自身的原因，服务并不能保证服务的100%可用，如果单个服务出现问题，调用这个服务就会出现网络延迟，此时若有大量网络涌入，会形成任务堆积，最终导致服务瘫痪。

服务雪崩效应

　　在分布式系统中，由于网络原因或自身的原因，服务一般无法保证100%可用，如果一个服务出现了问题，调用这个服务就会出现线程阻塞的情况，此时若有大量的请求涌入，就会出现多条线程阻塞等待，进而导致服务瘫痪。由于服务与服务之间的依赖性，故障会传播，会对整个微服务系统造成灾难性的严重后果，这就是服务故障的“雪崩效应”。

　　雪崩发生的原因多种多样，有不合理的容量设计，或者是高并发下某一个方法相应变慢，亦或是某台机器的资源耗尽。我们无法完全杜绝雪崩效应源头的发生，只有做好足够的容错，保证一个服务发生问题，不影响到其他服务的正常运行，也就是雪落而不雪崩。

常见容错方案

隔离

　　它是指将系统按照一定的规则划分为若干个服务模块，各个模块之间相对独立，无强依赖。当有故障发生时，能将问题和影响隔离在某个模块内部，而不扩散风险，不涉及其他模块，不影响整体的系统服务。常见的隔离方式有：线程池隔离和信号量隔离。

超时

　　在上游服务调用下游服务时，设置一个最大响应时间，如果超过这个时间，下游未作出反应，就断开请求，释放掉线程。

限流

　　限流就是限制系统的输入和输出流量已达到保护系统的目的，为了保证系统的稳定运行，一旦达到需要限制的阈值，就需要限制流量并采取少量措施以完成限制流量的目的。

熔断

　　在互联网系统中，当下游服务因访问压力过大而响应变慢或失败，上游服务为了保护系统整体的可用性，可以暂时切断对下游服务的调用。这种牺牲局部，保全全体的措施叫做熔断。熔断一般有三种　　状态：

熔断关闭状态：服务没有故障时，熔断器所处的状态，对调用方的调用不做任何限制。

熔断开启状态：后续对该服务接口的调用不再经过网络，直接执行本地的fallback方法。

半熔断状态：尝试恢复服务调用，允许有限的流量调用该服务，并监控调用成功率，如果成功率达到预期，则说明服务已经恢复，进入熔断关闭状态。如果成功率很低，则重新进入熔断关闭状态。

降级

　　降级其实就是为服务提供一个托底方案，一旦服务无法正常调用，就是用托底方案。

常见容错组件

Hystrix

　　Hystrix是由Netflix开源的一个延迟和容错库，用于隔离访问远程系统、服务或者是第三方库，防止级联失败，从而提升系统的可用性和容错性。

Resilience4J

　　Resilience4J是一款轻量级、简单、文档清晰、丰富的熔断工具，这也是Hystrix官方推荐的替代产品，不仅如此，Resilience4J还原生支持SpringBoot，而且监控也支持和promettheus等多款主流产品进行整合。

Sentinel

　　Sentinel是阿里巴巴开源的一款断路器实现，本身在阿里内部已经被大规模采用，非常稳定。