一致性Hash算法

一、Hash算法(或者叫Hash取模算法)：

Hash算法可以理解为：

假设有3台服务器（0,1,2）数量：N=3，

缓存项（例如：图片）：test.jpg

结果取模：R = hash(test.jpg)%3

R 的结果在0,1,2中

R = 0 则缓存在第1台服务器，R = 1缓存在第2台服务器，R = 2缓存在第3台服务器。

同理，查询后者缓存命中也是如此。

优点：对比不用Hsah算法，假如有3台缓存服务器，之前有一张图片test.jpg已经被缓存到3台服务器中的一台，但是需要命中缓存；如果不用试Hash算法就得去每个服务器遍历！当服务器数量多的时候呢？效率很低，这与HashMap中put或者get值时候需要查找该key是否存在的原理是一样的。

使用Hash算法可以定位到某一台服务器（HashMap则通过对key进行Hash取值找到数组的下标位置，然后再通过对象的equals来最终判断）而不用去遍历其他的缓存服务器了。效率值高了。

缺点：模块的数N=3表示服务器数目，是一个变量。所以会存在缓存雪崩的情况。因为服务器数量不是一层不变的，可能会增加数量后者宕机的情况。所以此些情况出现时N会发生变化，则缓存全部都不会命中。

二、一致性Hash算法

一致性Hash算法有个Hash环的概念。整个环就是2^32个整数，从0~2^32 -1 。类似一个时钟一样。

服务器位置和缓存项的位置都是通过取模后确认在Hash环上的某一个具体位置。然后缓存项的位置会缓存到顺时针Hash环到最近的一个上的服务器。

相同点：算法都需要进行取模运算

不同点：

1.取模的数不一样，Hash算法取模的数是服务器数量N,是变量；一致性Hash算法取模数则是常量N=2^32

2.Hash算法取模运算只做一次，一致性Hash运算运算会做2次【首先根据Hash（服务器ip）%2^32确定服务器再Hash环上的位置,然后通过Hash（缓存项）%2^32确定缓存项再Hash环上的位置】

运用一致性Hash算法时，当服务器数量发生变化，同样也会导致缓存不能命中，只是其中的一部分。即从发生变化的服务器的位置到它上个服务器位置（逆时针Hash环到最近的一个服务器位置）之前的缓存项会收到影响的。但是当服务器数量较多时,收到的影响也比较小。

当然确定服务器再Hash环上的位置时，不可能是理想状态（服务器再环上的分布均匀的）；

Hash（服务器ip）%2^32坑出现例如服务器1在0，服务器2在1，那么这种极端情况同样会产生雪崩。所以引入虚拟节点！当每个真实服务器的虚拟节点较多时，就可以看成是均匀分布的了、

memcache的一致性hash算法