接触软件体系架构设计（五）

在2017年初，有意着手H公司的技术准备，阅读些关于分布式架构。
首先要明确：为什么要用分布式架构？
首先是瓶颈，其次是资源的利用率，再其次才是软件工程化、模块化，提高重用性，使得开发和发布速度可以并行而变得更快

缺点明显：架构设计变得复杂（尤其是其中的分布式事务）；部署单个服务会比较快，但是如果一次部署需要多个服务，部署会变得复杂；联合调试难度大；开发成本高；运维成本增加；学习曲线变大；

之前阅读过一篇文章：《图解分布式架构的演进》，里面图解了分布式的演变，同时也展示了分布式完全是用钱砸出来的：

1、硬件资源，不断持续的投入

2、人工成本，分得越细，人工越多，成本不断的增加

3、维护成本/沟通成本

4、其他以及实践成本

这里值得提醒的是：

1、可以提前规划分布式，但开发实施之前需要问下：当前有没有实施的必要？什么时候实施分布式开发？------在初创企业中，有很多顾虑，最大的顾虑在于资金流的应用，一旦断链，分布式的实施开发就容易受创。

2、如果采用螺旋上升型实施分布式，建议采用接口式开发，尽量约束接口

3、如果移植已有的项目，请考量移植的实施条件

《图解分布式架构的演进》摘抄部分进行快速阅读：

分布式系统（distributed system）是建立在网络之上的软件系统。

内聚性：是指每一个数据库分布节点高度自治，有本地的数据库管理系统。

透明性：是指每一个数据库分布节点对用户的应用来说都是透明的，看不出是本地还是远程。

在分布式数据系统中，用户感觉不数据是分布的，即用户不须知道关系是否分割，有无副本，数据存在于那个站点以及事物在哪个站点上执行。

简单来说：在一个分布式系统中，一组独立的计算机展现给用户的是一个统一的整体，就好像是一个系统似的。

二、分布式架构的应用

1. 分布式文件系统

例如：出名的有 Hadoop 的 HDFS, 还有 google的 GFS , 淘宝的 TFS 等

2. 分布式缓存系统

例如：memcache , hbase, mongdb 等

3. 分布式数据库

例如：mysql, mariadb, postgreSql 等

4. 分布式webService

5. 分布式计算

四、分布式架构的演进

（1）初始阶段架构** **

特征：应用程序，数据库，文件等所有资源都放在一台服务器上。

（2）应用服务和数据服务以及文件服务分离

说明：好景不长，发现随着系统访问量的再度增加，webserver机器的压力在高峰期会上升到比较高，这个时候开始考虑增加一台webserver。

特征：应用程序、数据库、文件分别部署在独立的资源上。

（3）使用缓存改善性能

说明：系统访问特点遵循二八定律，即80%的业务访问集中在20%的数据上。

缓存分为本地缓存和远程分布式缓存，本地缓存访问速度更快但缓存数据量有限，同时存在与应用程序争用内存的情况。

特征：数据库中访问较集中的一小部分数据存储在缓存服务器中，减少数据库的访问次数，降低数据库的访问压力。

（4）使用“应用服务器”集群　　　

说明：在做完分库分表这些工作后，数据库上的压力已经降到比较低了，又开始过着每天看着访问量暴增的幸福生活了。

突然有一天，发现系统的访问又开始有变慢的趋势了，这个时候首先查看数据库，压力一切正常，之后查看webserver，发现apache阻塞了很多的请求，而应用服务器对每个请求也是比较快的，看来是请求数太高导致需要排队等待，响应速度变慢。

特征：多台服务器通过负载均衡同时向外部提供服务，解决单台服务器处理能力和存储空间上限的问题。

描述：使用集群是系统解决高并发、海量数据问题的常用手段。通过向集群中追加资源，提升系统的并发处理能力，使得服务器的负载压力不再成为整个系统的瓶颈。

（5）数据库读写分离

说明：享受了一段时间的系统访问量高速增长的幸福后，发现系统又开始变慢了，这次又是什么状况呢，经过查找，发现数据库写入、更新的这些操作的部分数据库连接的资源竞争非常激烈，导致了系统变慢。

特征：多台服务器通过负载均衡同时向外部提供服务，解决单台服务器处理能力和存储空间上限的问题。

描述：使用集群是系统解决高并发、海量数据问题的常用手段。通过向集群中追加资源，使得服务器的负载压力不在成为整个系统的瓶颈。

（6）反向代理和CDN加速　

特征：采用CDN和反向代理加快系统的访问速度。描述：为了应付复杂的网络环境和不同地区用户的访问，通过CDN和反向代理加快用户访问的速度，同时减轻后端服务器的负载压力。CDN与反向代理的基本原理都是缓存。

（7）“分布式文件”系统和 “分布式数据库”

说明：随着系统的不断运行，数据量开始大幅度增长，这个时候发现分库后查询仍然会有些慢，于是按照分库的思想开始做分表的工作特征：数据库采用分布式数据库，文件系统采用分布式文件系统。描述：任何强大的单一服务器都满足不了大型系统持续增长的业务需求，数据库读写分离随着业务的发展最终也将无法满足需求，需要使用分布式数据库及分布式文件系统来支撑。

分布式数据库是系统数据库拆分的最后方法，只有在单表数据规模非常庞大的时候才使用，更常用的数据库拆分手段是业务分库，将不同的业务数据库部署在不同的物理服务器上。

**（8）使用NoSQL和搜索引擎 **

特征：系统引入NoSQL数据库及搜索引擎。描述：随着业务越来越复杂，对数据存储和检索的需求也越来越复杂，系统需要采用一些非关系型数据库如NoSQL和分数据库查询技术如搜索引擎。

应用服务器通过统一数据访问模块访问各种数据，减轻应用程序管理诸多数据源的麻烦。

（9）业务拆分

特征：系统上按照业务进行拆分改造，应用服务器按照业务区分进行分别部署。

描述：为了应对日益复杂的业务场景，通常使用分而治之的手段将整个系统业务分成不同的产品线，应用之间通过超链接建立关系，也可以通过消息队列进行数据分发，当然更多的还是通过访问同一个数据存储系统来构成一个关联的完整系统。

纵向拆分：将一个大应用拆分为多个小应用，如果新业务较为独立，那么就直接将其设计部署为一个独立的Web应用系统纵向拆分相对较为简单，通过梳理业务，将较少相关的业务剥离即可。横向拆分：将复用的业务拆分出来，独立部署为分布式服务，新增业务只需要调用这些分布式服务横向拆分需要识别可复用的业务，设计服务接口，规范服务依赖关系。

（10）分布式服务

特征：公共的应用模块被提取出来，部署在分布式服务器上供应用服务器调用。描述：随着业务越拆越小，应用系统整体复杂程度呈指数级上升，由于所有应用要和所有数据库系统连接，最终导致数据库连接资源不足，拒绝服务。