Java开发拾遗—

Java开发拾遗——HashMap

　　在平时繁忙的开发工作中，很难有时间深入了解一些Java的基础知识，而这些是我们作为程序员的一些核心竞争力。最近在做面试招聘的相关工作，因此也抽点时间来复习下一些基础知识，不论是平时开发以及用来做面试题都比较用得着，顺便打个广告，阿里国际化部门持续招人，欢迎留言联系，有意向的可以加微信详聊。

1. JNI—— Java native interface

　　在翻看HashMap的实现时，追代码到Object.java后，看到如下代码：

1 public native int hashCode();

　　好像都没什么印象了，native这个关键字是什么意思呢？原来有JNI这样一个专门的定义。凡是被关键字native修饰的方法表示，这个方法是Java原生的方法声明，其他语言类型的代码如果要能在JVM中被调用，可以用实现JNI接口的方式。多数场景下是期望使用底层C/C++ 编写的已有代码或Lib/DLL，避免重复开发，这也就是JVM跨平台、可移植特性的体现。

2. HashMap相关

　　HashMap是Java程序员入门必须要了解的一中数据结构，并且其设计方式在实际工作中有许多地方是可以借鉴的。首先我们可以看一下Java 8里HashMap的数据结构定义，如下代码所示，每个数据存储的单元其实是一个节点Node。这个节点包含了4个成员

hash值：需要存放的元素的hash值，计算方法由hashCode方法定义
键key：存放需要存储元素的key　　
值value：用于存储键对应的元素
next：指向下一节点的指针

 1 static class Node<K,V> implements Map.Entry<K,V> {
 2         final int hash;
 3         final K key;
 4         V value;
 5         Node<K,V> next;
 6 
 7         Node(int hash, K key, V value, Node<K,V> next) {
 8             this.hash = hash;
 9             this.key = key;
10             this.value = value;
11             this.next = next;
12         }
13 
14         public final K getKey()        { return key; }
15         public final V getValue()      { return value; }
16         public final String toString() { return key + "=" + value; }
17 
18         public final int hashCode() {
19             return Objects.hashCode(key) ^ Objects.hashCode(value);
20         }
21 
22         public final V setValue(V newValue) {
23             V oldValue = value;
24             value = newValue;
25             return oldValue;
26         }
27 
28         public final boolean equals(Object o) {
29             if (o == this)
30                 return true;
31             if (o instanceof Map.Entry) {
32                 Map.Entry<?,?> e = (Map.Entry<?,?>)o;
33                 if (Objects.equals(key, e.getKey()) &&
34                     Objects.equals(value, e.getValue()))
35                     return true;
36             }
37             return false;
38         }
39     }

　　可以看到在hashMap设计的节点数据结构中包含了next这样一个像指针一样的成员，这个是做什么用的呢？

　　相信大家在学习Hash函数，HashTable的时候都有知道一个概念叫Hash Collision—— 哈希碰撞，因为容量有限的hash算法并不能保证被存储的所有数据都完全平均的分配在每个bucket种，势必会有一些元素经过的hash值散列后会指向同一个bucket，这时就需要解决哈希冲突，保证存储在同一bucket位置的元素都能被查找到，而很自然想到最简单的存储结构就是数组或者链表，为什么用链表就不用再解释了吧。

　　HashMap存储结构用这样一张图表示应该就比较清晰了。一个大小为16单元的HashMap，已经存放了一些元素，并且这些元素中有部分存在hash碰撞，因此在同一bucket中，采用链表方式进行存储。当需要查找的元素所在的bucket有多个元素时，遍历链表查找指定元素。

　　HashMap的resize()方法

　　当HashMap的容量不足后，JVM会重新为HashMap分配内存。如第19、20行代码所示，将之前表的大小左移一位，即容量扩大一倍，之后再进行元素的新存储，这里总结下几个关键的操作

容量不足时，会重新分配内存，大小为扩展为原来的2倍。
原先HashMap中的数据重新计算位置并存储。当一个bucket中的元素数量超过一定限制时，链表会树化（查找效率从O(N)提高到O(logn)）

 1     * Initializes or doubles table size.  If null, allocates in
 2      * accord with initial capacity target held in field threshold.
 3      * Otherwise, because we are using power-of-two expansion, the
 4      * elements from each bin must either stay at same index, or move
 5      * with a power of two offset in the new table.
 6      *
 7      * @return the table
 8      */
 9     final Node<K,V>[] resize() {
10         Node<K,V>[] oldTab = table;
11         int oldCap = (oldTab == null) ? 0 : oldTab.length;
12         int oldThr = threshold;
13         int newCap, newThr = 0;
14         if (oldCap > 0) {
15             if (oldCap >= MAXIMUM_CAPACITY) {
16                 threshold = Integer.MAX_VALUE;
17                 return oldTab;
18             }
19             else if ((newCap = oldCap << 1) < MAXIMUM_CAPACITY &&
20                      oldCap >= DEFAULT_INITIAL_CAPACITY)
21                 newThr = oldThr << 1; // double threshold
22         }
23         else if (oldThr > 0) // initial capacity was placed in threshold
24             newCap = oldThr;
25         else {               // zero initial threshold signifies using defaults
26             newCap = DEFAULT_INITIAL_CAPACITY;
27             newThr = (int)(DEFAULT_LOAD_FACTOR * DEFAULT_INITIAL_CAPACITY);
28         }
29         if (newThr == 0) {
30             float ft = (float)newCap * loadFactor;
31             newThr = (newCap < MAXIMUM_CAPACITY && ft < (float)MAXIMUM_CAPACITY ?
32                       (int)ft : Integer.MAX_VALUE);
33         }
34         threshold = newThr;
35         @SuppressWarnings({"rawtypes","unchecked"})
36             Node<K,V>[] newTab = (Node<K,V>[])new Node[newCap];
37         table = newTab;
38         if (oldTab != null) {
39             for (int j = 0; j < oldCap; ++j) {
40                 Node<K,V> e;
41                 if ((e = oldTab[j]) != null) {
42                     oldTab[j] = null;
43                     if (e.next == null)
44                         newTab[e.hash & (newCap - 1)] = e;
45                     else if (e instanceof TreeNode)
46                         ((TreeNode<K,V>)e).split(this, newTab, j, oldCap);
47                     else { // preserve order
48                         Node<K,V> loHead = null, loTail = null;
49                         Node<K,V> hiHead = null, hiTail = null;
50                         Node<K,V> next;
51                         do {
52                             next = e.next;
53                             if ((e.hash & oldCap) == 0) {
54                                 if (loTail == null)
55                                     loHead = e;
56                                 else
57                                     loTail.next = e;
58                                 loTail = e;
59                             }
60                             else {
61                                 if (hiTail == null)
62                                     hiHead = e;
63                                 else
64                                     hiTail.next = e;
65                                 hiTail = e;
66                             }
67                         } while ((e = next) != null);
68                         if (loTail != null) {
69                             loTail.next = null;
70                             newTab[j] = loHead;
71                         }
72                         if (hiTail != null) {
73                             hiTail.next = null;
74                             newTab[j + oldCap] = hiHead;
75                         }
76                     }
77                 }
78             }
79         }
80         return newTab;
81     }

　　HashMap的hash函数如下，很有意思，它不仅计算了key对象的hashCode，同时还将其右移16位后按位异或。为什么需要这样做呢？原因在于HashMap中存放元素的bucket下标的确定方式是：tab[i = (n - 1) & hash]，即除留余数法。因此只要数据的hash值比较大，则往往会造成最后的下标结果大概率是相同的情况，这样哈希碰撞就比较严重，存储不均匀，因此需要使用变化比较大的部分来进行hash和bucket位置的确定，因此采用高位右移的方式来解决这一问题。

1     static final int hash(Object key) {
2         int h;
3         return (key == null) ? 0 : (h = key.hashCode()) ^ (h >>> 16);
4     }

　　针对HashMap，这篇文章讲的不错：https://juejin.im/post/5d241fe6e51d4556db694a86，尤其里面还讲明了，hash算法里面为什么各种使用 & 操作的原因：因为 & 操作比其他操作快，对计算机来说移位操作比其他操作快的多，算是讲的比较透了。

3. ConcurrentHashMap

　　看了HashMap，再来看看ConcurrentHashMap。作为Java程序员，在求职时经常被问到的一个面试题就是ConcurrentMap和HashMap有什么区别。当然区别有很多，需要阐述的一个点就是一个是线程安全的，一个不是线程安全的，为什么ConcurrentHashMap就是线程安全的呢？又是如何实现保证线程安全的。

　　如下代码所示为ConcurrentHashMap中table成员变量的定义，HashMap中同样用table存储数据，不同的是ConcurrentHashMap中使用volatile关键字修饰了table变量，而HashMap中则没有。那么为什么用volatile修饰的成员在访问起来能够保证线程安全，或者说保持数据的一致性呢？

　　我们知道在现代计算机中数据在使用时，是会从内存读取并存放在CPU的高速缓存中以便提高访问速率，多个CPU核心可能会同时缓存同一对象的副本在自己的cache中，在并发访问的场景下，不同CPU都可能会自身缓存的副本进行读写操作，这时同一对象可能的值就会变得不一致。因此Java中引入了violation关键字来解决此类问题，被violatile修饰的变量，在编译为汇编语言后，是加上了Lock标识的指令，从而在CPU执行这条指令时，失效掉对应缓存，而从内存中重新读写。参考MESI 缓存一致性协议，具体工作原理可以参见《深入理解计算机系统》。

 1     /**
 2      * The array of bins. Lazily initialized upon first insertion.
 3      * Size is always a power of two. Accessed directly by iterators.
 4      */
 5     transient volatile Node<K,V>[] table;
 6 
 7     /**
 8      * The next table to use; non-null only while resizing.
 9      */
10     private transient volatile Node<K,V>[] nextTable;

　　先写这么多，最近看到一句话：软件开发是经验驱动，不是知识驱动。工作了几年现在看起来确实如此，学的好的，不如做的多想的总结的多的，共勉。

参考文档

https://www.cnblogs.com/qian123/p/5702574.html