浅析Java源码之HashMap

　　写这篇文章还是下了一定决心的，因为这个源码看的头疼得很。

　　老规矩，源码来源于JRE1.8，java.util.HashMap，不讨论I/O及序列化相关内容。

　　该数据结构简介：使用了散列码来进行快速搜索。(摘自Java编程思想)

　　那么，文章的核心就探讨一下，内部是如何对搜索操作进行优化的。

　　先来一张帅气的图片总览：

　　预备知识：

1、Map没有迭代器，但是可以通过Map.entry()生成一个Set容器，然后通过Set的迭代器遍历map元素。

2、HashMap是乱序的。

3、HashMap元素根据散列码分散在一个数组的不同索引中，利用了数组的快速搜索特性对get操作进行了优化。

4、HashMap元素的保存形式为单向链表，是一个静态内部类。

　　先过一遍这个内部类：

    static class Node<K,V> implements Map.Entry<K,V> {

        // hash值、key、value、后指针

        final int hash;

        final K key;

        V value;

        Node<K,V> next;

        Node(int hash, K key, V value, Node<K,V> next) {

            this.hash = hash;

            this.key = key;

            this.value = value;

            this.next = next;

        }

        public final K getKey()        { return key; }

        public final V getValue()      { return value; }

        public final String toString() { return key + "=" + value; }

        public final int hashCode() {

            return Objects.hashCode(key) ^ Objects.hashCode(value);

        }

        public final V setValue(V newValue) {

            // ...

        }

        public final boolean equals(Object o) {

            // ...

        }

    }

　　代码非常简单，常规的get/set/equals，构造函数仅有一个指向下一个节点的指针，属于单向链表。

　　还有一个新建Node的方法：

    Node<K,V> newNode(int hash, K key, V value, Node<K,V> next) {

        return new Node<>(hash, key, value, next);

    }

　　总览一下类的声明：

public class HashMap<K,V> extends AbstractMap<K,V>

implements Map<K,V>, Cloneable, Serializable {

    // code...

}

　　其中AbstractMap类实现了大部分常规方法，诸如get、contain、remove、size等方法，但是put方法是一个没有实现的方法，仅抛出一个错误。

　　至于Map接口，下载的源码包没有这个class的，所以暂时不知道内部的代码，不过影响不大。

　　这里比较奇怪的是，类AbstractMap中实现了Map接口，这里HashMap又重新声明实现Map接口，不太懂为啥。

变量

　　HashMap中的变量比较多，如下：

    // 容器默认容量 必须为2的次方

    static final int DEFAULT_INITIAL_CAPACITY = 1 << 4;

    // 容器最大容量

    static final int MAXIMUM_CAPACITY = 1 << 30;

    // 默认负载参数

    static final float DEFAULT_LOAD_FACTOR = 0.75f;

    // 容器参数

    final float loadFactor;

    // 一个节点数组 HashMap的容器

    transient Node<K,V>[] table;

    // 保存所有map的Set容器 可以用来遍历、查询等

    transient Set<Map.Entry<K,V>> entrySet;

    // map对象数量

    transient int size;

    // 容量临界值 触发resize

    int threshold;

    // 将红黑树转换回链表的临界值

    static final int UNTREEIFY_THRESHOLD = 6;

    // 链表转树的临界值

    static final int TREEIFY_THRESHOLD = 8;

    // (感谢指正)当某一个数组索引处的Node数量大于此值时 触发resize并重新分配Node

    static final int MIN_TREEIFY_CAPACITY = 64;

　　所有的容量与参数都是table相关，table就是开篇所讲的数组。

构造函数

1、无参构造函数

    public HashMap() {

        this.loadFactor = DEFAULT_LOAD_FACTOR;

    }

　　简单的将默认负载参数赋值给负载参数。

2、int单参数构造函数

    public HashMap(int initialCapacity) {

        this(initialCapacity, DEFAULT_LOAD_FACTOR);

    }

　　调用另外一个构造函数，第二个参数为默认的负载参数。

3、int、float双参数构造函数

    public HashMap(int initialCapacity, float loadFactor) {

        if (initialCapacity < 0)

            throw new IllegalArgumentException("Illegal initial capacity: " +

                                               initialCapacity);

        if (initialCapacity > MAXIMUM_CAPACITY)

            initialCapacity = MAXIMUM_CAPACITY;

        if (loadFactor <= 0 || Float.isNaN(loadFactor))

            throw new IllegalArgumentException("Illegal load factor: " +

                                               loadFactor);

        this.loadFactor = loadFactor;

        this.threshold = tableSizeFor(initialCapacity);

    }

　　错误处理就不管了，这里负载参数是正常的直接赋值，但是初始容器大小就不太一样了，是通过一个函数返回。

　　这个函数很有意思：

    static final int tableSizeFor(int cap) {

        int n = cap - 1;

        n |= n >>> 1;

        n |= n >>> 2;

        n |= n >>> 4;

        n |= n >>> 8;

        n |= n >>> 16;

        return (n < 0) ? 1 : n + 1;

    }

　　第一次看没搞懂，后面也没太看懂，于是尝试用个测试代码看一下输入值从0-100会输出什么。

　　测试代码：

public class suv {

    static final int tableSizeFor(int cap) {

        int n = cap - 1;

        n |= n >>> 1;

        n |= n >>> 2;

        n |= n >>> 4;

        n |= n >>> 8;

        n |= n >>> 16;

        return (n < 0) ? 1 : n + 1;

    }

    public static void main(String[] args){

        for(int i=1;i<100;i++){

            System.out.print(tableSizeFor(i) + ",");

            if(i%20 == 0){System.out.println();}

        }

    }

}

　　输出如下：

　　有非常明显的规律：

1、输出均为2的次方

2、输入值为大于该值的最小2次方数

　　例如：输入5，大于5的最小2次方数为2的三次方8，所以输出为8。

　　如果还不懂，可以看我自己写的方法，输出跟上面一样：

    static final int diyFn(int cap){

        int start = 1;

        for(;;){

            if(start >= cap){

                return start;

            }

            start = start << 1;

        }

    }

　　这里暂时不需要知道原因，只需要知道容量必须是2的次方。

4、带有初始化集合的构造函数

    public HashMap(Map<? extends K, ? extends V> m) {

        this.loadFactor = DEFAULT_LOAD_FACTOR;

        putMapEntries(m, false);

    }

　　这里负载参数设置为默认的，然后调用putMapEntries方法初始化HashMap。

　　这个方法会初始化一些参数，稍微看一下：

    final void putMapEntries(Map<? extends K, ? extends V> m, boolean evict) {

        int s = m.size();

        if (s > 0) {

            // 初始table为null

            if (table == null) { // pre-size

                // 用负载参数进行计算

                float ft = ((float)s / loadFactor) + 1.0F;

                // 与最大容量作比较 返回对应的int类型值

                int t = ((ft < (float)MAXIMUM_CAPACITY) ?

                         (int)ft : MAXIMUM_CAPACITY);

                // The next size value at which to resize (capacity * load factor).

                if (t > threshold)

                    threshold = tableSizeFor(t);

            }

            // 扩容

            else if (s > threshold)

                resize();

            // 插入处理

            for (Map.Entry<? extends K, ? extends V> e : m.entrySet()) {

                K key = e.getKey();

                V value = e.getValue();

                putVal(hash(key), key, value, false, evict);

            }

        }

    }

　　这里的扩容类似于ArrayList的grow函数，不同的是这里扩容的算法是每次乘以2，并且存在一个负载参数来修正初次扩容的步数。

　　threshold可以看注释，这是一个扩容临界值。当容器大小大于这个值时，就会进行resize扩容操作，临界值取决于当前容器容量与负载参数。

　　接下来应该要进入resize函数，参照之前的ArrayList源码，这里也是先扩容得到一个新的数组，然后将所有节点进行转移。

　　函数有点长，一步一步来：

    final Node<K,V>[] resize() {

        // 缓存旧数组

        Node<K,V>[] oldTab = table;

        // 旧容量

        int oldCap = (oldTab == null) ? 0 : oldTab.length;

        // 旧的临界值

        int oldThr = threshold;

        int newCap, newThr = 0;

        if (oldCap > 0) {

            // 旧容量已经达到上限时 返回旧的数组

            if (oldCap >= MAXIMUM_CAPACITY) {

                threshold = Integer.MAX_VALUE;

                return oldTab;

            }

            // 容量与临界值同时<<1

            else if ((newCap = oldCap << 1) < MAXIMUM_CAPACITY &&

                     oldCap >= DEFAULT_INITIAL_CAPACITY)

                newThr = oldThr << 1;

        }

        // 下面的else均代表旧数组为空

        else if (oldThr > 0)

            // 新容量设置为旧的临界值

            newCap = oldThr;

        else {

            // 当容器为空时 初始化所有参数

            newCap = DEFAULT_INITIAL_CAPACITY;

            newThr = (int)(DEFAULT_LOAD_FACTOR * DEFAULT_INITIAL_CAPACITY);

        }

        // 这里的情况是初始化一个空HashMap 然后调用putAll插入大量元素触发的resize

        // 新临界值为新容量与负载参数相乘

        if (newThr == 0) {

            float ft = (float)newCap * loadFactor;

            newThr = (newCap < MAXIMUM_CAPACITY && ft < (float)MAXIMUM_CAPACITY ?

                      (int)ft : Integer.MAX_VALUE);

        }

        // 新临界值

        threshold = newThr;

        // ...数组操作

    }

　　首先第一步是参数修正，包括临界值与容器容量。

　　接下来就是数组操作，如下：

    final Node<K,V>[] resize() {

        // 参数修正

        @SuppressWarnings({"rawtypes","unchecked"})

        // 根据新容量生成新数组

        Node<K,V>[] newTab = (Node<K,V>[])new Node[newCap];

        table = newTab;

        // 如果旧数组是空的 直接返回扩容后的数组

        if (oldTab != null) {

            for (int j = 0; j < oldCap; ++j) {

                Node<K,V> e;

                // 遍历旧数组

                if ((e = oldTab[j]) != null) {

                    // 释放对应旧数组内存

                    oldTab[j] = null;

                    // 数组仅存在一个元素

                    if (e.next == null)

                        // 将节点复制到新数组对应索引

                        newTab[e.hash & (newCap - 1)] = e;

                    // 使用红黑树结构保存的节点 这里暂时不管

                    else if (e instanceof TreeNode)

                        ((TreeNode<K,V>)e).split(this, newTab, j, oldCap);

                    else { // preserve order

                        Node<K,V> loHead = null, loTail = null;

                        Node<K,V> hiHead = null, hiTail = null;

                        Node<K,V> next;

                        // 遍历数组对应索引的链表元素

                        do {

                            next = e.next;

                            // 两个分支都是执行链表的链接

                            // 由于数组扩容 所以对于(length-1) & hash的运算会改变 所以对原有的数组内容重新分配

                            if ((e.hash & oldCap) == 0) {

                                if (loTail == null)

                                    loHead = e;

                                else

                                    loTail.next = e;

                                loTail = e;

                            }

                            else {

                                if (hiTail == null)

                                    hiHead = e;

                                else

                                    hiTail.next = e;

                                hiTail = e;

                            }

                        } while ((e = next) != null);

                        // 数组对应索引存储的是链表的第一个节点

                        if (loTail != null) {

                            loTail.next = null;

                            newTab[j] = loHead;

                        }

                        if (hiTail != null) {

                            hiTail.next = null;

                            // oldCap为旧容量

                            newTab[j + oldCap] = hiHead;

                        }

                    }

                }

            }

        }

        return newTab;

    }

　　至此，可以看出，数组保存了一系列单向链表的第一个元素。

核心讲解

　　这里存在一个核心运算，即：

    newTab[e.hash & (newCap - 1)] = e;

　　之前讲过扩容，每次扩容的容量都是2的次方，为什么必须是呢？这里就给出了答案。

　　开篇讲过，该数据结构是通过hash值来优化搜索，这里就用到了hash值。但是hash值是不确定的，如何保证元素分配到的索引平均分配到数组的每一个索引，并且不会超过索引呢？

　　答案就是这个运算，这里举一个例子：

　　比如说容量为默认的16，此时的二进制表示为10000，减1后会得到01111。

　　与运算应该都不陌生，两个都为1时才会返回1。

　　由于高位会自动补0，所以任何数与01111做与运算时，高位都是0，范围限定在 00000 ~ 01111，十进制表示就是0 - 15，巧的是，容量为16的数组，索引恰好是[0] - [15]。

　　这就解释了为什么容量必须为2的次方，而且元素是如何被平均分配到数组中的。

    (e.hash & oldCap) == 0

　　这是用来区分lo、hi的运算，注释中已经解释了为什么需要做切割，这里给一个简图说明一下：

　　首先，假设这个tab容量目前是8，而索引0中的节点太多了(这里应该是树，懒得画了)，于是触发了resize，并将该索引每个节点的hash值按照上面的那个计算，判断是否需要移动。

　　经过重分配，数组大概变成了这样：

　　扩容后，会进行插入操作，留到下一部分解释。

　　由于大体上的思想已经很明显了，下面看一下增删改查的API。

方法

　　按照增删改查的顺序。

　　首先看一眼增：

    public V put(K key, V value) {

        return putVal(hash(key), key, value, false, true);

    }

　　方法需要传入键值对，返回值。这里调用了内部的添加方法，其中散列码用的是key的，这里的hash并不是直接用hashCode方法，而是内部做了二次处理。

    static final int hash(Object key) {

        int h;

        return (key == null) ? 0 : (h = key.hashCode()) ^ (h >>> 16);

    }

　　这个运算没啥讲的，当成返回一个随机数就行了。

　　下面是putVal的完整过程：

    final V putVal(int hash, K key, V value, boolean onlyIfAbsent, boolean evict) {

        Node<K, V>[] tab;

        Node<K, V> p;

        int n, i;

        // 初始化HashMap后第一次添加会调用resize初始化

        if ((tab = table) == null || (n = tab.length) == 0)

            // 返回扩容后的长度 默认情况下为1<<4

            n = (tab = resize()).length;

        // 又是位运算 这里代表该索引位没有链表 于是新建一个Node

        if ((p = tab[i = (n - 1) & hash]) == null)

            tab[i] = newNode(hash, key, value, null);

        else {

            Node<K, V> e;

            K k;

            // 传入元素的key与链表第一个元素的key相同

            if (p.hash == hash && ((k = p.key) == key || (key != null && key.equals(k))))

                e = p;

            // 树节点 暂时不管

            else if (p instanceof TreeNode)

                e = ((TreeNode<K, V>) p).putTreeVal(this, tab, hash, key, value);

            else {

                for (int binCount = 0;; ++binCount) {

                    // 到达尾部进行插入节点

                    if ((e = p.next) == null) {

                        p.next = newNode(hash, key, value, null);

                        // 当链表的长度大于临界值时 调用treeifyBin

                        if (binCount >= TREEIFY_THRESHOLD - 1) // -1 for 1st

                            treeifyBin(tab, hash);

                        break;

                    }

                    // 当中途遇到key相同的元素时 跳出循环

                    if (e.hash == hash && ((k = e.key) == key || (key != null && key.equals(k))))

                        break;

                    p = e;

                }

            }

            if (e != null) { // existing mapping for key

                V oldValue = e.value;

                // 赋值

                if (!onlyIfAbsent || oldValue == null)

                    e.value = value;

                // 链表链接成功的钩子函数

                afterNodeAccess(e);

                return oldValue;

            }

        }

        ++modCount;

        // 临界值检测

        if (++size > threshold)

            resize();

        // 新建链表的钩子函数

        afterNodeInsertion(evict);

        return null;

    }

　　这里的过程可以简述为：通过key的hash值计算出一个值作为索引，然后对索引处的链表进行插入或者修改操作。

　　但是这里还是有几个特殊的点：

1、钩子函数

2、当链表长度大于某个值时，会调用treeifyBin方法将链表转换为红黑树

　　钩子函数是我自己取的名字，因为让我想到了vue生命周期的钩子函数。这两个方法都是本地已定义但是没有具体内容，是用来重写的函数。

　　另外一个是treeifyBin方法，该方法将链表转换为红黑树结构保存：

    final void treeifyBin(Node<K,V>[] tab, int hash) {

        int n, index; Node<K,V> e;

        // 若小于最低树临界值 触发resize

        if (tab == null || (n = tab.length) < MIN_TREEIFY_CAPACITY)

            resize();

        // 该索引处有元素

        else if ((e = tab[index = (n - 1) & hash]) != null) {

            TreeNode<K,V> hd = null, tl = null;

            do {

                // 将索引处第一个链表元素转为红黑树结构

                TreeNode<K,V> p = replacementTreeNode(e, null);

                // 针对第一个元素

                if (tl == null)

                    hd = p;

                // 前指针与后指针的链接操作

                else {

                    p.prev = tl;

                    tl.next = p;

                }

                tl = p;

            } while ((e = e.next) != null);

            // 这里是真正的红黑树转换

            if ((tab[index] = hd) != null)

                hd.treeify(tab);

        }

    }

　　可以看出，当链表的长度大于某一临界值时，会将数据结构转换为红黑树。

　　当然，这个链表的Node比一般的链表还是牛逼一点，采用的键值对的泛型，而TreeNode本身是一个静态内部类，目前仅需要知道继承于LinkedHashMap.Entry，元素按照插入顺序进行排序。

　　关于TreeNode转换的详解可以单独分一节讲了，这里暂时跳过吧。

　　下面是删：

    public V remove(Object key) {

        Node<K,V> e;

        return (e = removeNode(hash(key), key, null, false, true)) == null ? null : e.value;

    }

　　直接看removeNode的实现：

    final Node<K,V> removeNode(int hash, Object key, Object value,boolean matchValue, boolean movable) {

        Node<K,V>[] tab; Node<K,V> p; int n, index;

        if ((tab = table) != null && (n = tab.length) > 0 &&

            (p = tab[index = (n - 1) & hash]) != null) {

            Node<K,V> node = null, e; K k; V v;

            // 当对应索引第一个链表元素就与key相等

            if (p.hash == hash &&

                ((k = p.key) == key || (key != null && key.equals(k))))

                node = p;

            else if ((e = p.next) != null) {

                // 红黑树删除

                if (p instanceof TreeNode)

                    node = ((TreeNode<K,V>)p).getTreeNode(hash, key);

                else {

                    // 遍历链表对key做比较

                    do {

                        if (e.hash == hash &&

                            ((k = e.key) == key ||

                             (key != null && key.equals(k)))) {

                            node = e;

                            break;

                        }

                        p = e;

                    } while ((e = e.next) != null);

                }

            }

            if (node != null && (!matchValue || (v = node.value) == value ||

                                 (value != null && value.equals(v)))) {

                // 红黑树结构删除节点

                if (node instanceof TreeNode)

                    ((TreeNode<K,V>)node).removeTreeNode(this, tab, movable);

                // 当第一个元素被删除时 下一个被指定为索引处元素

                else if (node == p)

                    tab[index] = node.next;

                // 重新链接next

                else

                    p.next = node.next;

                ++modCount;

                --size;

                // 钩子函数

                afterNodeRemoval(node);

                // 返回删除的节点

                return node;

            }

        }

        return null;

    }

　　这里很简答，通过hash值快速找到对应的索引处，遍历链表或者红黑树进行查询，找到就删除节点并重新执行next链接。

　　同样，这里也有一个钩子函数，参数为被删除的节点。

　　由于改的情况在增的情况中已经提及，所以这里就跳过。

　　最后看一眼查：

    public V get(Object key) {

        Node<K,V> e;

        return (e = getNode(hash(key), key)) == null ? null : e.value;

    }

    public boolean containsKey(Object key) {

        return getNode(hash(key), key) != null;

    }

　　一个获取，一个查询，都指向同一个方法，所以看getNode的实现：

    final Node<K,V> getNode(int hash, Object key) {

        Node<K,V>[] tab; Node<K,V> first, e; int n; K k;

        if ((tab = table) != null && (n = tab.length) > 0 &&

            (first = tab[(n - 1) & hash]) != null) {

            // 查第一个元素

            if (first.hash == hash && // always check first node

                ((k = first.key) == key || (key != null && key.equals(k))))

                return first;

            // 然后遍历

            if ((e = first.next) != null) {

                if (first instanceof TreeNode)

                    return ((TreeNode<K,V>)first).getTreeNode(hash, key);

                do {

                    if (e.hash == hash &&

                        ((k = e.key) == key || (key != null && key.equals(k))))

                        return e;

                } while ((e = e.next) != null);

            }

        }

        return null;

    }

　　没啥营养，常规的找索引，遍历，返回节点或者null。

　　至此，HashMap的基本内部实现已经完事，红黑树转换另外开一篇单独弄。