散列表与哈希算法学习笔记

散列表与哈希算法

一,散列表原理(Hash Table)

散列表来源于数组具有下标随机访问特性,理解这点非常重要。可以说散列表是由数组进化来的。将输入的键通过哈希函数映射得出的value作为index去table中查询,这便是散列的思想。

graph LR A[键值key] -->|哈希函数|B(结果value)

我们了解到为什么散列表的查询复杂度是O(1),因为key->value为计算过程,O(1),数组支持随机访问,查询也为O(1),所以散列表的查询效率为O(1)。

我们可以很明确的看出,散列函数(即hash function)是至关重要的。散列函数具有的特点有:

  • hash(key)为非负的
  • 当key1 == key2 ,hash(key1) == hash(key2)
  • 当key1 != key2 ,hash(key1) != hash(key2)

第三点要求很难实现,这是由于散列冲突是几乎不可避免的,我们来聊聊散列冲突。

1,散列冲突

像知名的hash算法:MD5,SHA也无法完全避免散列冲突,常见的解决方法为两类:开放寻址和链表法。

Ⅰ ,开放寻址

开放寻址的思想是:如果出现了散列冲突,我们就重新探测一个位置,将其插入。如何探测一个新的位置呢?我们有几种方法:

①,线性探测

如果出现冲突,则从当前位置往后挪,直到找到空闲位置。

优点 缺点
简单 若元素过多,冲突概率会很大,查询/插入/插入的效率急速降低
删除元素不能直接删除,要标记一下deleted

②,二次探测

它与第一种方法的区别是,线性探测挪动的步伐为1,而二次探测挪动的步伐为0,1,4,9,。。。。

③,双重散列

我们不只使用一个散列函数,我们使用一组散列函数,hash1,hash2,hash3,....

以上三种方法,不管用哪种,当装载因子过大时,冲突的概率都会大大提高。

我们用装载因子表示空位的剩余。计算公式为:
装载因子 = 填入的元素个数/table的长度

Ⅱ,链表法

链表法相对开放寻址法,更加常用,更加简明。在链表法中,每个元素存储的时一条链表,所有散列值相同的元素,我们都放到对应的链表中。

开放寻址与链表法的优劣

①,开放寻址优劣

优点

开放寻址的数据都在散列表中,有效利用CPU缓存,加快查询,并且序列化简单

缺点

删除数据比较麻烦,可能需要标记deleted,相比链表法,冲突概率高,不能将装载因子设计的太大,所以相比链表法,更耗内存。4

②,链表法优劣

优点

内存利用率相对高,对大的装载因子容忍,

缺点

CPU缓存不友好(由于有链表)。

实际上我们可以在每个槽里不存指向链表的指针,而是存红黑树,跳表这种高效查询的数据结构,有效避免散列碰撞攻击(即使数据都挤在一个槽,查询效率也为O(logn))。

二,设计散列表

工业级的散列表,需要应对各种异常情况,避免散列冲突下性能急剧下降,抵抗散列碰撞攻击。

PS:散列碰撞攻击指的是恶意的用户构造恶意的数据,使得所有数据经过散列函数之后,都进入了一个bucket(slot,槽),再去查询,这样会大量消耗CPU资源,以此来做Dos攻击。

1,设计散列函数

要求:

  1. 不能太复杂,不然消耗CPU计算
  2. 生成的value尽量随机且均匀分布。
  3. 合理利用关键字的特点,散列表的大小

例如,对于字符串,我们可以用26进制求出值,再模长度

2,装载因子过大如何处理

装载因子过大,说明表中元素过多,空闲位置少,散列冲突的概率会很大,插入数据会多次寻址(开放寻址法)或槽中的链表的很长(链表法),导致查询效率很低。

对于频繁插入的动态散列表,当装载因子超过某个阈值,需要进行扩容,重新申请内存空间,重新计算哈希值,并搬移数据,O(n)的复杂度。

3,一次性扩容并搬移数据,效率很低怎么办?

我们可以分批处理,先申请空间,将插入的数据直接插入新的散列表里,然后旧的散列表里的数据分批逐步的同步到新散列表,当查询时可以先查新散列表,再查旧的。。
解决问题:触发阈值扩容并搬移数据这个过程在数据量很大时效率是极低的,让人崩溃

三,哈希算法

将任意长度的二进制位映射到固定长度的二进制位的映射规则,称为哈希算法。
一个优秀的哈希算法包括以下要求:

  1. value不能反推出key
  2. 输入的数据即使相差一个bit,输出的value也会相差很大
  3. 冲突概率尽可能小。‘
  4. 算法的执行效率要高,不占用过多计算资源。

我们着重了解哈希算法的应用。

1,安全加密

最常用的安全加密算法:MD5,SHA,DES,AES

为什么可以用哈希算法做安全加密是由于key的向量空间是非常大的,利用穷举的方法找到两个哈希值一样的文本是几乎不可能的。

2,唯一标识

拿一张图片,去判断图库中是否有这张图片,如何做呢?
对这张图片做哈希运算,将得到的值进行去查,大大节省了时间。

3,数据校验

比如我们下载一个很大的电影,服务器会将这个大文件分拆成上百个小文件发送,那么如何确保数据没有被篡改或者丢失?

利用哈希的思路:将下载下来的文件做哈希运算,得到的值和种子文件做对比。

4,散列函数

散列表是哈希函数的一种应用,区别是散列函数追求简单,快速,对于加密并不重视。

四,哈希算法与分布式

1,负载均衡

如何实现一个会话粘滞(session sticky)的负载均衡算法?非常简单,**通过哈希算法,对客户端IP地址或会话ID计算哈希值,取模运算映射到相应的服务器。

2,数据分片

我们来看两个非常常见的面试题:

Ⅰ 大数据统计“搜索关键字”出现的次数

Description:我们有1T的内存,我们想快速统计每个关键字被搜索的次数,怎么做呢?我们有以下难点:

  1. 一台机器的内存,无法容纳
  2. 只用一台机器,处理时间会很长
    解决方法:
    ** 先对数据分片,采用多台机器,提高速度。**
    具体思路:
    我们用n台机器并行处理,我们从搜索记录的日志文件中,依次读取每个搜索关键字,进行哈希运算,跟n取模,得到值就是分配到的机器编号。
    由此一来,哈希值相同的搜索关键字就被分配到了同一台机器。
    最后再将n台机器的结果合并在一起。

这正是MapReduce的思想。

Ⅱ 快速判断图片是否在图库中(图库特别大)

如果我们对图片构建散列表,单台机器内存有限。

同样,我们可以进行数据分片,采用多机处理。每台机器都有对应的散列表,我们去判断的时候,先哈希运算,取值模n得到机器号,再由相应的机器进行处理。当然,相应的机器可以构建散列表,由于数据分片了,内存是合适的。

3,分布式存储

面对海量数据,为了提高读写能力,一般用分布式方式存储数据。

跟前面的思路类似,数据分片,哈希运算获得机器号,然后去相应的机器做查询。

问题来了,假如缓存机器不够了,需要做扩容怎么办?麻烦来了,简单的增加机器并不可取。比如本来10台机器,那么15被映射到5号机器,我们增加两台,那么15会被映射到3号机器。也就是说此时缓存失效了(需要搬移数据到正确的机器上),会直接向数据库索要数据,会压垮数据库。
一致性哈希就是解决这个问题的,可以避免大量的数据搬移。

关于一致性哈希,有大牛讲的很好,贴出链接:
http://www.zsythink.net/archives/1182

每一篇博客,不为别的,证明我的成长。每一次发文,不为别的,证明我严阵以待。蜗牛爬得很慢,却终有一日登上参天大树。因为它热爱。
原文地址:https://www.cnblogs.com/agui521/p/12499242.html