Hash算法和一致性Hash算法

Hash算法

我们对同一个图片名称做相同的哈希计算时，得出的结果应该是不变的，如果我们有3台服务器，使用哈希后的结果对3求余，那么余数一定是0、1或者2，正好与我们之前的服务器编号相同，如果求余的结果为0，我们就把当前图片名称对应的图片缓存在0号服务器上，如果余数为1，就把当前图片名对应的图片缓存在1号服务器上，如果余数为2，同理，那么，当我们访问任意一个图片的时候，只要再次对图片名称进行上述运算，即可得出对应的图片应该存放在哪一台缓存服务器上，我们只要在这一台服务器上查找图片即可，如果图片在对应的服务器上不存在，则证明对应的图片没有被缓存，也不用再去遍历其他缓存服务器了，通过这样的方法，即可将3万张图片随机的分布到3台缓存服务器上了，而且下次访问某张图片时，直接能够判断出该图片应该存在于哪台缓存服务器上，这样就能满足我们的需求了，我们暂时称上述算法为HASH算法或者取模算法，取模算法的过程可以用下图

hash算法的缺点:

这种情况带来的结果就是当服务器数量变动时,所有缓存的位置都要发生改变当服务器数量发生改变时,所有缓存在一定时间内是失效的

当缓存服务器数量发生变化时,会引起缓存的雪崩,可能会引起整体系统压力过大而崩溃（大量缓存同一时间失效）

一致性Hash算法

一致性哈希算法也是使用取模的方法 hash算法的取模法是对服务器的数量进行取模,而一致性哈希算法是对2^32取模

hash（服务器A的IP地址） % 2^32

hash（服务器B的IP地址） % 2^32

hash（服务器C的IP地址） % 2^32

我们需要使用缓存服务器缓存图片，而且我们仍然使用图片的名称作为找到图片的key，那么我们使用如下公式可以将图片映射到上图中的hash环上

hash（图片名称） % 2^32

服务器与图片都被映射到了hash环上,图片到底应该被缓存到哪一台服务器上呢？图片将会被缓存到从图片的位置开始,沿顺时针方向遇到的第一个服务器就是A服务器,所以, 图片将会被缓存到服务器A上如下图:

使用hash算法,服务器数量发生改变时,所有服务器的所有缓存在同一时间失效了,而使用一致性哈希算法时,服务器的数量如果发生改变,并不是所有缓存都会失效,而是只有部分缓存会失效,前端的缓存仍然能分担整个系统的压力,而不至于所有压力都在同一时间集中到后端服务器上.

hash环偏斜

1号、2号、3号、4号、6号图片均被缓存在了服务器A上只有5号图片被缓存在了服务器B上服务器C上甚至没有缓存任何图片如果出现上图中的情况，A、B、C三台服务器并没有被合理的平均的充分利用,缓存分布的极度不均匀,而且,如果此时服务器A出现故障,那么失效缓存的数量也将达到最大值,在极端情况下,仍然有可能引起系统的崩溃，上图中的情况则被称之为hash环的偏斜我们应该怎样防止hash环的偏斜

虚机节点

每一个服务节点计算多个哈希，每个计算结果位置都放置一个此服务节点，称为虚拟节点。具体做法可以在服务器ip或主机名的后面增加编号来实现.可以为每台服务器计算三个虚拟节点，于是可以分别计算 “Node A#1”、“Node A#2”、“Node A#3”、“Node B#1”、“Node B#2”、“Node B#3”的哈希值，于是形成六个虚拟节点：

从上图可以看出，A、B、C三台服务器分别虚拟出了一个虚拟节点，当然，如果你需要，也可以虚拟出更多的虚拟节点。引入虚拟节点的概念后，缓存的分布就均衡多了，上图中，1号、3号图片被缓存在服务器A中，5号、4号图片被缓存在服务器B中，6号、2号图片被缓存在服务器C中，当然可以虚拟出更多的虚拟节点，以便减小hash环偏斜所带来的影响，虚拟节点越多，hash环上的节点就越多，缓存被均匀分布的概率就越大。