Java中关于HashMap源码的研究

1.基础知识

1.数组

数组存储区间是连续的，占用内存严重，故空间复杂的很大。但数组的二分查找时间复杂度小，为O(1)；数组的特点是：寻址容易，插入和删除困难。

2.链表

链表存储区间离散，占用内存比较宽松，故空间复杂度很小，但时间复杂度很大，达O（N）。链表的特点是：寻址困难，插入和删除容易。

3.哈希表

那么我们能不能综合两者的特性，做出一种寻址容易，插入删除也容易的数据结构？答案是肯定的，这就是我们要提起的哈希表。哈希表（(Hash table）既满足了数据的查找方便，同时不占用太多的内容空间，使用也十分方便。

2.具体实现

由于HashMap使用的是数组+链表的方式来存储数据的。那么我们先研究下每一个元素存放数据的数据结构--HashMap的内部类。

1.基本元素

Entry<K,V>是HashMap的基本元素单位其本身就是一个链表存储方式。

//定义为静态内部类,使用时不需要外部类的对象
static class Entry<K, V> implements Map.Entry<K, V> {
  //Key为HashMap定义的key,为保证key的稳定性定义为不可修改的final类型
  final K key;
  //value为HashMap的value
  V value;
  //存储的是如果哈希值相同下一个元素的引用。这是一个典型的链表结构
  Entry<K, V> next;
  //hash为hash(key)%length（hashMap长度默认为16）运算后的结果
  int hash;

  //默认构造方法
  Entry(int h, K k, V v, Entry<K, V> n) {
    value = v;
    next = n;
    key = k;
    hash = h;
  }
  //后面是一些重写toString、equals、 hashCode等操作就省略了。
}

上面的代码多一句嘴，在JDK1.8中以上的版本中我们会看到Node和TreeNode的基础元素类型是因为JDK1.8版本的HashMap采用数组+链表+红黑树来实现，当链表长度超过阈值（8）时，将链表转换为红黑树，这样大大减少了查找时间。

2.基础结构

下面我们看看HashMap的基础结构Entry数组。

static final Entry<?,?>[] EMPTY_TABLE = {};

transient Entry<K,V>[] table = (Entry<K,V>[]) EMPTY_TABLE;

Entry数组的长度必须是2的幂。至于为什么是2的幂这个问题不是本文的重点。
可以参考
HashMap实现原理及源码分析|
HashMap剖析

3.存取实现。

1.put

既然HashMap的基础是数组那么为什么能够随机存取。而不是数组那样一个一个add存储呢。
为了解释清楚这个概念。需要了解下HashMap内部的一些属性（成员变量）

1.size 这个属性表示了HashMap中所有KV对的数量，包含挂在链表中的KV对。

2.capacity 这个属性表示HashMap的哈希表的长度，也就是table的长度。

3.loadFactor
这个属性表示装载因子（用来形容是否装满，默认为0.75f），用来当HashMap的哈希表是否需要扩容的最大比例。当前的实装的因子为size/capacity。

4.threshold
这个属性表示HashMap的哈希表是否需要扩容的阈值。一般的来说当size大于这个值时会出发resize()操作（哈希散列表扩容的操作）。一般计算方法为capacity*loadFactor

5.modCount
这个属性表示HashMap表修改次数。给迭代器使用以保证Map迭代的完整性。

在项目第一次put是如果发现table的值为空那么就会启动一个初始化table的方法inflateTable(),这个名称很形象叫充气或者叫可以填充的。

if (table == EMPTY_TABLE) {
    inflateTable(threshold);
}
//table初始化方法
private void inflateTable(int toSize) {
    // 将其扩大值2的幂
    int capacity = roundUpToPowerOf2(toSize);

    threshold = (int) Math.min(capacity * loadFactor, MAXIMUM_CAPACITY + 1);
    //创建了一个大小为最大长度的entry数字
    table = new Entry[capacity];
    initHashSeedAsNeeded(capacity);
}

数组建立完成后数组是有下标的。
我们只需要将key的哈希值与数组的最大长度取余。得出的结果作为存储的下标位置存入该数组。
具体实现如下：

//存值过程  
int index = key.hashCode() % table.length;
Entry[index] = value;

具体是怎么返回索引的呢,h是key的哈希码 length 是table.length由于是全部填充故table的长度大约等于capacity.

& 与运算：参加运算的两个数据，按二进制位进行“与”运算。运算规则：0&0=0; 0&1=0; 1&0=0; 1&1=1;

这里用了一个巧妙的算法。应为之前的约定length必定为2的幂。那么如果将length-1的到的结果一定是全1的二进制数字例如15（1111）、 7（111）、 3（11）、1（1）等。
那么将哈希值与这样的值做与运算得出的结果为h对length取余数。下面我举个栗子说明这一点。

我们用长度为16的length举例 16-1=15用二进制表示为（1111）
依据运算规则 0&1 = 0 1&1=1那么我们只要保证，二进制的数值最后4位为0那么他的余数一定是零。只要后面四位有任意一位是1数值都会被过滤出来。成为余数。
11110000(240)、10000（16）、100000（32）、110000（48）等一定是16的倍数。也就是说无论高于4位的数值是什么对余数结果都没有干扰。

对于2的幂作为模数取模，可以用&(2^{n-1)来替代%2}n，位运算比取模效率高很多,因为对2^n取模，只要不是低n位对结果的贡献显然都是0，会影响结果的只能是低n位。

static int indexFor(int h, int length) {
   return h & (length-1);
}

这里会出现一个问题如果2个key的哈希值冲突那么会出现什么结果呢。
这时HashMap的链表就登场了。当时我们在研究哈希表存储结构的时候有一个next属性。作用是指向下一个Entry，那么这两个Entry就以链表的形式存储在了一个哈希值下。

public V put(K key, V value) {
    //如果为空即第一次存储执行初始化数组table方法
    if (table == EMPTY_TABLE) {
        inflateTable(threshold);
    }
    //如果key为null这时就调用putForNullKey来存储value
    //这就是hashMap支持null key的原因。
    if (key == null)
        return putForNullKey(value);
    //上文讲到的计算index
    int hash = hash(key);
    int i = indexFor(hash, table.length);
    //遍历链表
    //这时一个非常漂亮的递归遍历方式
    for (Entry<K,V> e = table[i]; e != null; e = e.next) {
        Object k;
        //如果hash 、 key相同则覆盖原值
        if (e.hash == hash && ((k = e.key) == key || key.equals(k))) {
            V oldValue = e.value;
            e.value = value;
            e.recordAccess(this);
            return oldValue;
        }
    }
    modCount++;
    //如果key不相同则执行添加（也包含了第一次添加的逻辑）
    addEntry(hash, key, value, i);
    return null;
}
//如果key是null
private V putForNullKey(V value) {
    //如果发现table[0]发现有key等于null的值则覆盖
    for (Entry<K,V> e = table[0]; e != null; e = e.next) {
        if (e.key == null) {
            V oldValue = e.value;
            e.value = value;
            e.recordAccess(this);
            return oldValue;
        }
    }
    modCount++;
    //在table[0]添加一个新的KV
    addEntry(0, null, value, 0);
    return null;
}


//添加新元素
void addEntry(int hash, K key, V value, int bucketIndex) {
    //在这里调用了是否需要扩容的逻辑
    if ((size >= threshold) && (null != table[bucketIndex])) {
        resize(2 * table.length);
        hash = (null != key) ? hash(key) : 0;
        bucketIndex = indexFor(hash, table.length);
    }
    //创建新节点
    createEntry(hash, key, value, bucketIndex);
}
//这时创建新的ENtry
void createEntry(int hash, K key, V value, int bucketIndex) {
    //首先将当前节点的元素存储起来
    Entry<K,V> e = table[bucketIndex];
    //创建一个新对象存储当前元素，将当原本元素存储到next中
    //如果两个元素碰撞那么后来者居上。
    table[bucketIndex] = new Entry<>(hash, key, value, e);
    //将元素长度增加
    size++;
}

说下这个扩容的逻辑，就是这个方法resize 需要传入一个容量大小。每次扩容都是前一次容量的两倍。

void resize(int newCapacity) {
    //存储就的散列表
    Entry[] oldTable = table;
    //记录旧散列的长度
    int oldCapacity = oldTable.length;
    //如果旧的散列达到了上限则不扩容。
    if (oldCapacity == MAXIMUM_CAPACITY) {
        threshold = Integer.MAX_VALUE;
        return;
    }
    //创建一个新的散列表
    Entry[] newTable = new Entry[newCapacity];
    //将数据转移到新表
    transfer(newTable, initHashSeedAsNeeded(newCapacity));
    table = newTable;
    //修改新的容量阈值
    threshold = (int)Math.min(newCapacity * loadFactor, MAXIMUM_CAPACITY + 1);
}
//将旧哈希表的数据转移到扩容后哈希表中
void transfer(Entry[] newTable, boolean rehash) {
    int newCapacity = newTable.length;
    //遍历旧哈希表
    for (Entry<K,V> e : table) {
        //读取链表
        while(null != e) {
            Entry<K,V> next = e.next;
            if (rehash) {
                e.hash = null == e.key ? 0 : hash(e.key);
            }
            int i = indexFor(e.hash, newCapacity);
            e.next = newTable[i];
            newTable[i] = e;
            e = next;
        }
    }
}

2.get

取值逻辑

//存值过程  
int index = key.hashCode() % table.length;
return Entry[index]

获取的逻辑就没有存储这么复杂了。

public V get(Object key) {
  //key为null时单独调用获取null的逻辑
   if (key == null)
       return getForNullKey();
  //获取value值
   Entry<K,V> entry = getEntry(key);
   return null == entry ? null : entry.getValue();
}
//key为null值得取值方法
private V getForNullKey() {
     if (size == 0) {
         return null;
     }
     //村吃时候是存在固定位置取时直接从table[0]位置读取
     for (Entry<K,V> e = table[0]; e != null; e = e.next) {
         if (e.key == null)
             return e.value;
     }
     return null;
 }
 //取值逻辑 此方法不能重写。
 final Entry<K,V> getEntry(Object key) {
       if (size == 0) {
           return null;
       }

       int hash = (key == null) ? 0 : hash(key);
       //循环遍历链表查找到值后返回 如果没有返回null
       for (Entry<K,V> e = table[indexFor(hash, table.length)];
            e != null;
            e = e.next) {
           Object k;
           if (e.hash == hash &&
               ((k = e.key) == key || (key != null && key.equals(k))))
               return e;
       }
       return null;
   }

3.remove、clear、containsValue、containsKey

//依据key移除元素
public V remove(Object key) {
  //依据key的哈希遍历链表然后移除元素
   Entry<K,V> e = removeEntryForKey(key);
   return (e == null ? null : e.value);
}

//clear调用了arrays全填充操作
public void clear() {
    modCount++;
    Arrays.fill(table, null);
    size = 0;
}
//简单粗暴的遍历全部元素判断是否有该value.效率极其低下
public boolean containsValue(Object value) {
    if (value == null)
        return containsNullValue();

    Entry[] tab = table;
    for (int i = 0; i < tab.length ; i++)
        for (Entry e = tab[i] ; e != null ; e = e.next)
            if (value.equals(e.value))
                return true;
    return false;
}
//判断Key是否存在.很高效
public boolean containsKey(Object key) {
    return getEntry(key) != null;
}

4.Iterator

首先我们先看下一个抽象哈希迭代器

private abstract class HashIterator<E> implements Iterator<E> {

    Entry<K,V> next;        // 下一个迭代的元素
    int expectedModCount;   // 开始迭代修改书
    int index;              // 当前的标记
    Entry<K,V> current;     // 当前的实例
    //初始化迭代器给next赋值
    HashIterator() {
      expectedModCount = modCount;
      if (size > 0) { // advance to first entry
          Entry[] t = table;
          while (index < t.length && (next = t[index++]) == null);
      }
    }

    public final boolean hasNext() {
      return next != null;
    }
    //读取下一个元素
    final Entry<K,V> nextEntry() {
      if (modCount != expectedModCount)
          throw new ConcurrentModificationException();
      Entry<K,V> e = next;
      if (e == null)
          throw new NoSuchElementException();

      if ((next = e.next) == null) {
          Entry[] t = table;
          while (index < t.length && (next = t[index++]) == null)
              ;
      }
      //将当前元素赋值给当前元素属性
      current = e;
      return e;
    }

    public void remove() {
      if (current == null)
          throw new IllegalStateException();
      if (modCount != expectedModCount)
          throw new ConcurrentModificationException();
      Object k = current.key;
      current = null;
      HashMap.this.removeEntryForKey(k);
      expectedModCount = modCount;
    }
}

HashMap提供了3中迭代器遍历方式

1.值遍历（values）

//对外提供的方法
//这里的values是Values这个内部类的实例
public Collection<V> values() {
    Collection<V> vs = values;
    return (vs != null ? vs : (values = new Values()));
}
//这是一个内部类实现了一个迭代器Collection<V>能接收valus这个实例这是向上造型
//这个实例返回的实际上是一个Map元素的映射因为基于map所以数值是动态变化的
private final class Values extends AbstractCollection<V> {
    public Iterator<V> iterator() {
        return newValueIterator();
    }
    public int size() {
        return size;
    }
    public boolean contains(Object o) {
        return containsValue(o);
    }
    public void clear() {
        HashMap.this.clear();
    }
}
//返回一个迭代器对象
Iterator<V> newValueIterator()   {
   return new ValueIterator();
}
//迭代器内部类
//当不断调用next()该方法时 元素就一个接一个呗读取出来了
private final class ValueIterator extends HashIterator<V> {
   public V next() {
       return nextEntry().value;
   }
}

具体在代码中的用法

//第一种
Collection<String> vs = m.values();
System.out.println(vs);
//第二种
Iterator<String> vs2 = m.values().iterator();
while(vs2.hasNext()){
	System.out.println(vs2.next());
}

2.键遍历（keySet）

迭代方式和值遍历略有不同本质上还是使用HashIterator来迭代。只不过由取value变成了取key


public Set<K> keySet() {
   Set<K> ks = keySet;
   return (ks != null ? ks : (keySet = new KeySet()));
}

private final class KeySet extends AbstractSet<K> {
   public Iterator<K> iterator() {
       return newKeyIterator();
   }
   public int size() {
       return size;
   }
   public boolean contains(Object o) {
       return containsKey(o);
   }
   public boolean remove(Object o) {
       return HashMap.this.removeEntryForKey(o) != null;
   }
   public void clear() {
       HashMap.this.clear();
   }
}

Iterator<K> newKeyIterator()   {
   return new KeyIterator();
}
private final class KeyIterator extends HashIterator<K> {
    public K next() {
        return nextEntry().getKey();
    }
}

实际迭代用法,雷同与值遍历

Set<String> keys = m.keySet();
System.out.println(keys);
Iterator<String> keys2 = m.keySet().iterator();
while (keys2.hasNext()) {
	System.out.println(keys2.next());
}

3.键值对遍历（entrySet）

迭代方式相同此处就不在赘述。

public Set<Map.Entry<K,V>> entrySet() {
   return entrySet0();
}

private Set<Map.Entry<K,V>> entrySet0() {
    Set<Map.Entry<K,V>> es = entrySet;
    return es != null ? es : (entrySet = new EntrySet());
}

private final class EntrySet extends AbstractSet<Map.Entry<K,V>> {
    public Iterator<Map.Entry<K,V>> iterator() {
        return newEntryIterator();
    }
    public boolean contains(Object o) {
        if (!(o instanceof Map.Entry))
            return false;
        Map.Entry<K,V> e = (Map.Entry<K,V>) o;
        Entry<K,V> candidate = getEntry(e.getKey());
        return candidate != null && candidate.equals(e);
    }
    public boolean remove(Object o) {
        return removeMapping(o) != null;
    }
    public int size() {
        return size;
    }
    public void clear() {
        HashMap.this.clear();
    }
}

Iterator<Map.Entry<K,V>> newEntryIterator()   {
    return new EntryIterator();
}

private final class EntryIterator extends HashIterator<Map.Entry<K,V>> {
    public Map.Entry<K,V> next() {
        return nextEntry();
    }
}

用法和上面两个并无差别

Set<Entry<String, String>> es = m.entrySet();
System.out.println(es);
Iterator<Map.Entry<String, String>> it = m.entrySet().iterator();
while (it.hasNext()) {
	System.out.println(it.next());
}

3.HashMap的问题

HashMap的线程安全问题一直为人所诟病，幸好我们有了Hashtable、ConcurrentHashMap等安全的hashmap。

4.总结

允许以Key为null的形式存储<null,Value>键值对。
HashMap的查找效率非常高，因为它使用Hash表对进行查找，可直接定位到Key值所在的链表中；
使用HashMap时，要注意HashMap容量和加载因子的关系，这将直接影响到HashMap的性能问题。加载因子过小，会提高HashMap的查找效率，但同时也消耗了大量的内存空间，加载因子过大，节省了空间，但是会导致HashMap的查找效率降低。需要使用接从中权衡利弊。