hash简单介绍

hash也称“散列”，是一种基于映射关系的存储方式，将任意长度的二进制值输出为固定长度的较小的二进制值，这种输出的小的固定长度的值为hash值；

1. 散列技术是在关键字key与存储位置之间建立对应的关系，计算得到存储们置，建立这种关系的函数就是散列函数f，存储位置为f(key)；

2. 每个关键字对应唯一的存储位置，在查找时，根据定值key和对应的关系映射函数f，就可以很快的在集合中找到存储位置f(key)；

hash表也称“散列表”，是一张映射表，将一组关键字key根据设定的hash函数f和处理碰撞的方法映射到一个有限的连续的地址集合上，并以关键字在地址集中的“像”作为记录在表中的存储位置；这种映射过程称为“散列”，得到的存储地址称为“散列地址”；

1. 根据关键字key直接找到存储位置的数据结构，查找速度快；

2. 在散列表中，通常会遇到一种情况key1 != key2, 却可以得到f(key1) = f(key2), 这种现象称为碰撞也称冲突；在碰撞中，关键字key对该散列函数f来说称做同义词；

3. hash表是基于数组的，数组创建后难于扩展，当hash表被填满时，性能会下降，所以程序员在创建hash表时，必须清楚想要创建的数据的大小；

由以上可以看出，hash表存在两种情况：1. hash冲突，2. hash表溢出

处理hash冲突和溢出的方法有：

以下摘录自百度

1．开放寻址法；Hi=(H(key) + di) MOD m,i=1,2,…，k(k<=m-1)，其中H(key)为散列函数，m为散列表长，di为增量序列，可有下列三种取法：

1)． di=1,2,3,…，m-1，称线性探测再散列；

2)． di=1^2,(-1)^2,2^2,(-2)^2,(3)^2,…，±(k)^2,(k<=m/2)称二次探测再散列；

3)． di=伪随机数序列，称伪随机探测再散列。

2．再散列法：Hi=RHi(key),i=1,2,…，k RHi均是不同的散列函数，即在同义词产生地址冲突时计算另一个散列函数地址，直到冲突不再发生，这种方法不易产生“聚集”，但增加了计算时间。

3．链地址法(拉链法)

4．建立一个公共溢出区