哈希表散列表(zend_array)数组

一。哈希表，也称散列表

　　如下图所示

　　key：键，通过它可以快速检索到对应的value。一般是数字或字符串。

　　value：值，目标数据。可以是复杂的数据结构。

　　slot: 槽，就是平时所说的哈希表的单元，全部就是哈希表的表长

　　bucket: 桶, 对应槽下存储的值，可以是复杂类型

　　哈希函数： key 通过哈希函数得到slot，比如 key%表长 = slot，就会得到对应的槽

　　哈希冲突： key 通过哈希函数得到slot是同一个，就叫作哈希冲突。一般采用链地址法和开放地址法解决冲突

　　具体可以百度来看

二。PHP中的哈希表

　　PHP在上面的哈希上做了如下改变:

　　增加了hash1函数(hash2和上面的哈希函数效果一样，把数字映射到槽中)。hash1将key映射为h值，hash2将h值映射为slot的索引值。

　　bucket里面增加h字段。

　　bucket里面的key字段作为字符串key，不再表示数字key。

　　这么做主要有两个原因：

　　因为哈希的key可能是数字也可能是字符串，所以用h代表数字的键，用key代表字符串的键，如果键是字符串，那么通过hash1得到数字键，然后和上面的哈希一样，把h(数字键)映射到槽中。如果键是数字，hash1啥都不做，h值就是键值，然后和上面的哈希一样，把h(数字键)映射到槽中。

　　加快了比较和查找，在比较查找中，先比较h值，h值相等再比较长度和内容，但经过了hash1得到的h值九成以上是不相等的，这就能通过h快速的比较出结果，而不用对长度和内容进行比较，加快了速度。

三。PHP7的哈希表(看最顶层图的zend_array，即数组)

　　PHP7还是使用链地址法解决冲突。不过采用的链表是一种逻辑上的链表，所有bucket不再通过指针维护上下游关系，如下图所示

　　槽和桶放在了数组里面，-1到-n对应上面所说的slot(槽)，右边的0到n-1就对应槽中挂载的桶了，这么做最大的效果就是：

　　数组是随机存取的(即直接访问)，通过数组下标直接获取值，不像一般的哈希一样通过链表来顺序访问，这里增加了至少一半的效率

　　这里也很直观的能看到为什么PHP数组是有序的(即插入和遍历出来的结果一样)，因为插入时在有效bucket中插入，即0，1，到n-1，而遍历时也是直接这么从头读出来的。PHP数组的设计要满足这两个条件：1. 是字典，即键值对 2. 是有序。现在这两个条件都已经满足了

　　到了这里其实还有些疑问：

　　1. 上面数组的设计是怎么映射槽的，槽又是怎么关联桶，桶和桶又怎么关联的？

　　解决了这个也就解决了索引数组为啥是负的，掩码为啥是负的？即 value.arr.nTableMask(看最上面的图)

　　首先解决怎么映射到slot的，h 通过 hash2 的到 slot ，举个简单的例子，比如哈希表的长度为 8 ，得到的 h 值为10 ，10%8=2 就会映射到第二个slot , 用数组来存储后原理也一样(这里设计得非常巧妙), 用 h 值和表长按位或，同样取 8 和 10，此时 8 要变成 -8 存储在计算机里，存储的补码(计算机存储数都是补码，主要为了解决符号位和加减法等原因)为 11111111 11111111 11111111 11111000 (32位系统)，这里可以算一下它的原码，反码=补码-1 =

11111111 11111111 11111111 11110111 得到反码，原码=反码取反(第一位符号位不取反) = 10000000 00000000 00000000 00001000 ，算一下这个二进制就是 -8, 存储在计算机里就是补码 000 (忽略前面的所有1)，而任何整数和这个值按位或后恰好满足 [-n,-1] 的取值范围，比如现在举例的 -8 ，即

　　这里就刚好是[-8,-1]的取值范围，再用刚才的例子，把 10 和 -8 按位或之后得 -2

　　11111111 11111111 11111111 11111000    =  -8

　　0111.........................110110    =   10

   1111...........................1110     =  -2

-2 就是第二个slot ，是不是很神奇，然后slot里的值存储bucket的索引，剩下的和图中所示一样。

　　2. 既然是找到slot后，再通过slot找到第一个bucket，接着再找第二个bucket，那么它和链表的方式是一样的，链表的方式也是这样子，找到slot后，由链表的指针找到第一个bucket，然后再通过下一个指针找第二个bucket，都是一样的啊，效率提现在哪里?

　　这个问题我一开始就产生了，刚开始百思不解，书中也没有明确的说明这个原因，既然作者这么设计，必有他的道理，效率也必定提升了，只是我没有想到在哪方面提升了，后来仔细一想，既然原理还是一样的，那就是体现在查找的方式上，具体体现在这个地方：

　　用最简单的例子说明，对于指针 a* 指向bucket , 要得到 bucket 的值 , cpu 通过寄存器访问内存得到变量 a 的值，然后返回给cpu ，这里称为一次内存的访问，也就是两次指令的操作，因为变量a的值是一个地址，cpu 拿到值后再次像第一次一样寻址得到bucket的值，这里进行了两次的内存访问。而通过上面设计的数组来操作的话，只需要拿到数组的头地址进行寻址，然后通过内存的偏移(数组的索引进行偏移)得到值，返回给cpu，这里只进行了一次内存的访问，减少了一次内存访问，效率就体现在这里。