散列表

2018-02-24 23:54:41

散列表（Hash table，也叫哈希表），是根据键（Key）而直接访问在内存存储位置的数据结构。也就是说，它通过计算一个关于键值的函数，将所需查询的数据映射到表中一个位置来访问记录，这加快了查找速度。这个映射函数称做散列函数，存放记录的数组称做散列表。

问题：如何快速搜索到需要的关键词？如果关键词不方便比较怎么办？

求解：查找常用的方法有二分查找(O(lgn))，二叉搜索树查找(O(h))，平衡二叉搜索树查找(O(lgN))等。但是对于关键词不方便比较的问题，使用任意一种方法都不是很方便。这时可以使用散列表。

查找的策略：查找的本质是根据所给的关键词，找到相应的位置。

1）有序安排对象：全序、半序 -- 二分查找

2）根据关键词计算出位置 -- 散列

散列查找法的两项基本工作：

计算位置：构造散列函数计算关键词的存储位置。
解决冲突：解决多个关键词计算得到的位置相同的问题。

如果散列函数构造合理，冲突解决方案合适，那么操作的时间复杂度可以达到O(1)。

一、散列表的抽象数据类型

散列的基本思想是：

（1）以关键字key为自变量，通过噢一个确定的函数h（散列函数），计算出对应的函数值h（key），作为数据的存储位置；

（2）可能不同的关键字会映射到同一个存储位置上，这别称为冲突，所以需要某种冲突解决策略。

二、散列函数

一个‘好’的散列函数一般要考虑下列的两个因素：

1）计算简单，以便提高转换效率；

2）关键字对应的地址空间分布均匀，以减少冲突的发生；

数字关键字

1）直接定址法

取关键词的某个线性函数值为散列地址，即：

h(key) = a * key + b (a 、b 为常数)

2）除留余数法

散列函数为：

h(key) = key mod p

关于除数为什么选择素数的理解：

假设N = kn, M = km， N和M存在最大公因数k，此时可以将N % M = r转化为公式N = Mq + r，即kn = kmq + r。其中q是商，r是余数。“表面上”r的取值范围是{0, 1, 2, …, M-1}（忽视了只有N与M最大公因数为1时，才能取整个余数集合R的定理），一片和谐。但是可以对公式进行稍微的变换，n = mq + (r/k)，由于n和mq都是整数，则(r/k)也是整数。此时我们看一看到(r/k)的取值范围是{0, 1, 2, …, m} = {0, 1, 2, …, M/k}。恢复到原式，也是就r的“实际”取值范围是{0, k, 2*k, 3*k, …, m*k}，缩小了k倍。

一切都明了了，我们最后的目标就是保证N与M最大公因数为1。最简单的方式就是直接取M为质数！

3）数字分析法

分析数字关键字在各位上的变化情况，取比较随机的位作为散列地址。