哈希算法学习

哈希函数要做的事情是给一个任意大小的数据生成出一个固定长度的数据，作为它的映射。所谓映射就是一一对应。一个可靠的哈希算法要满足三点。

第一是安全，给定数据 M 容易算出哈希值 X ，而给定 X 不能算出 M ，或者说哈希算法应该是一个单向算法。

第二是独一无二，两个不同的数据，要拥有不相同的哈希。

第三是长度固定，给定一种哈希算法，不管输入是多大的数据，输出长度都是固定的。

但如果长度固定代表着取值范围是有限的，而输入数据的取值范围是无限的，所以总会找到两个不同的输入拥有相同的哈希。所以，哈希函数的安全性肯定是个相对概念。如果出现了两个不同输入有相同输出的情况，就叫哈希碰撞

在密码学领域，有两个算法都是把数据做输入，而输出是一段谁也看不懂的数据。其中一个就是哈希算法，另外一个是加密算法。注意，哈希算法和加密算法是完全不同的。

首先哈希算法的输出长度是固定的，而加密算法的输出长度是跟数据本身长度直接相关的，第二，哈希是不可以逆向运算出数据的，而加密算法的输出是要能够逆向运算出数据的。关于加密算法，我们这里就不展开聊了。

这里主要是强调加密哈希算法只是被用在加密过程中，但是它本身不是加密算法。

总之，哈希算法有很多种，长度越长的算法基本认为越安全。安全度低的哈希算法被认为是普通哈希算法，主要用来做完整性校验。安全度高的被称为加密哈希算法，会被用在加密算法中。所谓的高低都是相对概念，例如 MD5 曾经属于加密哈希，但是目前只能用来做安全校验了。而从2017年开始，SHA-1 算法生成的加密证书也会被各大浏览器拒绝了。目前最流行的加密算法是 SHA-2 ，但是跟 SHA-1 不同，SHA-2 不是一种算法，而是一系列算法的统称，其中就包括咱们之前提过的 SHA-256 。

　　（1） MD4

　　MD4（RFC 1320）是 MIT 的 Ronald L. Rivest 在 1990 年设计的，MD 是 Message Digest 的缩写。它适用在32位字长的处理器上用高速软件实现--它是基于 32 位操作数的位操作来实现的。

　　（2） MD5

　　MD5（RFC 1321）是 Rivest 于1991年对MD4的改进版本。它对输入仍以512位分组，其输出是4个32位字的级联，与 MD4 相同。MD5比MD4来得复杂，并且速度较之要慢一点，但更安全，在抗分析和抗差分方面表现更好

　　（3） SHA-1 及其他

　　SHA1是由NIST NSA设计为同DSA一起使用的，它对长度小于264的输入，产生长度为160bit的散列值，因此抗穷举（brute-force）性更好。SHA-1 设计时基于和MD4相同原理，并且模仿了该算法。

常见的Hash函数有以下几个：

　　直接定址法：直接以关键字k或者k加上某个常数（k+c）作为哈希地址。

　　数字分析法：提取关键字中取值比较均匀的数字作为哈希地址。

　　除留余数法：用关键字k除以某个不大于哈希表长度m的数p，将所得余数作为哈希表地址。

　　分段叠加法：按照哈希表地址位数将关键字分成位数相等的几部分，其中最后一部分可以比较短。然后将这几部分相加，舍弃最高进位后的结果就是该关键字的哈希地址。

　　平方取中法：如果关键字各个部分分布都不均匀的话，可以先求出它的平方值，然后按照需求取中间的几位作为哈希地址。

　　伪随机数法：采用一个伪随机数当作哈希函数。

解决碰撞的方法有哪些:

开放定址法
- 开放定址法就是一旦发生了冲突，就去寻找下一个空的散列地址，只要散列表足够大，空的散列地址总能找到，并将记录存入。
链地址法
- 将哈希表的每个单元作为链表的头结点，所有哈希地址为i的元素构成一个同义词链表。即发生冲突时就把该关键字链在以该单元为头结点的链表的尾部。
再哈希法
- 当哈希地址发生冲突用其他的函数计算另一个哈希函数地址，直到冲突不再产生为止。
建立公共溢出区
- 将哈希表分为基本表和溢出表两部分，发生冲突的元素都放入溢出表中。