学习笔记--HashMap浅析

HashMap 实现了Map 接口，其底层以一个线性数组保存哈希表，所以它既有数组查询的高效，也有哈希存取的方便。

HashMap提供了默认构造器，和有参构造器，在有参构造器中，提供了两个参数，可以对集合长度和加载因子自定义。如果不传，默认长度为16，加载因子为0.75，所以实际初始临界长度为16*0.75 = 12。

HashMap 定义了一个内部类Entry<K,V>,从外形上可以看出，HashMap的值实际上就是保存在这个自定义的类上。然后定义了一个transient 的数组，数组类型为Entry。

HashMap在通过put(key,value)设置的时候，首先会拿到key,拿到它的哈希值,key.hashcode(),通过它的一个算法得到新的哈希值

然后通过算法得到value在entry数组中的下标或者叫索引

以下是它的put方法

通过观察可以发现，在存值的时候，首先会对数组进行循环判断，判断它们的KEY和将要存储的KEY的哈希值进行比较，如果相同，则会覆盖掉value，然后把旧的value返回.有意思的是,两个key的hash相同必须同时满足两个条件，即“==”和“equals”同时为true，如果不同时满足这两个条件，但它们KEY的哈希又确实相等，确实有这种情况，即“==”返回true,而“equals”返回false,那么它实际上将不会覆盖,而是在相应的数组节点上,通过entry的next属性形成一个entry链,后进来的排在最前面.

那么这会形成两个问题:1是有的数组节点上形成了一个较长的entry链，而另外的节点上还没有一个值。这大约可以通过增大加载因子来调节；2是数组节点上entry链过长，它会影响查找效率。在加载因子不变的情况下，只有增加长度了。HashMap靠resize()来重设长度，那么，HashMap在什么去增加长度呢？

通过搜索可以发现，在每次put的时候，都会去调用resize()

通过resize()方法可以发现,如果数组超过临界长度,长度会默认增长为当前两倍.那么这就会出现一个新的问题,简单起见,假设原先存储数据的key.hashcode()=5,%12=7,那么这条数据就存在数组下标为7的地方，如果数组长度不够，默认增加一倍就为了24，这时候%24=19，在读取的时候它不是就会跑到数组下标为19的地方去找？考虑到这一点，HashMap会调用一个方法叫做transfer()将原数组取key重新计算在新的数组里的下标。

这个方法会将原先的每条数据遍历，重新计算，然后转移到新的数组。这将会是非常影响效率的操作。

前面讲到数组entry[]table 修饰符为transient，因此，它是不直接包含在序列化里的。HashMap通过迭代器来遍历，它的内部有一个泛型的抽象类HashIterator<E>，同时ValueIterator,KeyIterator,去实现了这个类，在HashMap迭代的时候，通过两个属性来控制方法的同步。一个是modCount,在HashMap的每一个方法，包括put,remove里面，都会看到这个属性，每一次操作它自增。它表示对这个集合更新的次数。假设在迭代之前，modCount为18，然后把值赋给另一属性expectedCount(预期值)，如果在迭代操作未完成之前，这个命令被另一个线程进行了一次操作，那么这时modcount=19,它在指向nextEtry即下一个元素之前，会去比较两个值，如果不相等，就会抛出异常ConcurrentModificationException().