8 HashMap

HashMap作为最常见的集合，设计的非常巧妙，里面有许多细节及优化技巧值得我们深入学习。HashMap是线程不安全的，所有对应的设计了线程安全的ConcurrentHashMap，通过细粒度的锁实现了线程安全。

一、HashMap

1、存储的数据结构

HashMap继承了Map<K, V>，存储的是一对键值对，将键映射到值的对象，一个映射不能包含重复的键，每个键只能映射到一个值。

2、底层数据结构

JDK1.8之前，HashMap是数组+单向链表实现的，JDK1.8开始数组+单向链表+红黑树实现

3、HashMap 遍历使用

        Map<Integer, String> map = new HashMap<>();

        map.put(1, "Arya");

        map.put(2, "Sum");

        map.put(3, "Sesi");

        map.put(4, "Sansa");

        // 1 遍历键值

        Set<Entry<Integer, String>> set = map.entrySet();

        for (Entry entry : set) {

            System.out.println(entry.getKey() + " -> " + entry.getValue());

        }

        System.out.println("-----------------------");

        // 2 遍历键

        for (Integer key : map.keySet()) {

            System.out.println(key + " -> " + map.get(key));

        }

        System.out.println("-----------------------");

        // 3 遍历值

        for (String value : map.values()) {

            System.out.println(value);

        }

        System.out.println("-----------------------");

        int key1 = 0;

        // 4 foreach遍历

        map.forEach((key, value) -> System.out.println(key + " -> " + value));

4、实现原理

4.1、存储结构

HashMap 是一个链表散列结构，即数组与链表的结合体，HashMap底层是一个数组结构，数组中每一项又是一个链表。当链表的长度超过8时，链表将会转为红黑树。如下图所示：

当新建一个HashMap时，就会初始化一个数组，一个长度为16的数组。每个元素存储的是一个链表的头结点，这些元素添加的算法是通过hash(key)%len【实际优化为：(table.length -1) & h，长度减1与hash值进行与运算】的规则存储到数组中的，按照元素的key的哈希值对数组长度取模得到。

4.2、核心变量

(1) Node<K, V>[] table： 节点数组，底层数据容器
(2) Node(int hash, K key, V value, Node<K,V> next)：节点
(3) DEFAULT_INITIAL_CAPACITY： 默认大小16
(4) DEFAULT_LOAD_FACTOR： 默认负载因子0.75
(5) TREEIFY_THRESHOLD： 临界值8

4.3、put 存储逻辑

当我们往HashMap的put元素时，先根据元素的key的hashCode计算hash值，根据hash值与数组length计算这个元素在数组中的位置，如果数组该位置已经存放其他元素了，那么在这个位置上的元素将以链表的形式存放，新加入元素的放在链头，最先加入的放在链尾。如果数组该位置上没有元素，则使用传入的参数新增一个节点并放在该索引位置。JDK1.8以后，HashMap 采用数组 + 链表 + 红黑树实现，链表长度超过8时，将链表转为红黑树，这样可以大大减少查找时间。

 public V put(K key, V value) {

        return putVal(hash(key), key, value, false, true);

 }

final V putVal(int hash, K key, V value, boolean onlyIfAbsent,

                   boolean evict) {

        Node<K,V>[] tab; Node<K,V> p; int n, i;

        if ((tab = table) == null || (n = tab.length) == 0)

            n = (tab = resize()).length;

        if ((p = tab[i = (n - 1) & hash]) == null)

            tab[i] = newNode(hash, key, value, null);

        else {

            Node<K,V> e; K k;

            if (p.hash == hash &&

                ((k = p.key) == key || (key != null && key.equals(k))))

                e = p;

            else if (p instanceof TreeNode)

                e = ((TreeNode<K,V>)p).putTreeVal(this, tab, hash, key, value);

            else {

                for (int binCount = 0; ; ++binCount) {

                    if ((e = p.next) == null) {

                        p.next = newNode(hash, key, value, null);

                        if (binCount >= TREEIFY_THRESHOLD - 1) // -1 for 1st

                            treeifyBin(tab, hash);

                        break;

                    }

                    if (e.hash == hash &&

                        ((k = e.key) == key || (key != null && key.equals(k))))

                        break;

                    p = e;

                }

            }

            if (e != null) { // existing mapping for key

                V oldValue = e.value;

                if (!onlyIfAbsent || oldValue == null)

                    e.value = value;

                afterNodeAccess(e);

                return oldValue;

            }

        }

        ++modCount;

        if (++size > threshold)

            resize();

        afterNodeInsertion(evict);

        return null;

}

(1) 如何计算新添加的元素存放的位置

首先调用hash(Object key) 对key值进行hash计算，key的hashCode与 hashCode无符号右移16之后再进行异或运算，保证对key进行了充分的散列。

static final int hash(Object key) {

        int h;

        return (key == null) ? 0 : (h = key.hashCode()) ^ (h >>> 16);

}

添加之前先对table进行初始化(table未初始化，即第一次添加元素时)或者扩容(数组长度超过阈值=length * DEFAULT_LOAD_FACTOR)。

if ((tab = table) == null || (n = tab.length) == 0)

    n = (tab = resize()).length;

初始化及扩容方法

final Node<K,V>[] resize() {

        Node<K,V>[] oldTab = table;

        int oldCap = (oldTab == null) ? 0 : oldTab.length;

        int oldThr = threshold;

        int newCap, newThr = 0;

        if (oldCap > 0) {

            if (oldCap >= MAXIMUM_CAPACITY) {

                threshold = Integer.MAX_VALUE;

                return oldTab;

            }

            else if ((newCap = oldCap << 1) < MAXIMUM_CAPACITY &&

                     oldCap >= DEFAULT_INITIAL_CAPACITY)

                newThr = oldThr << 1; // double threshold

        }

        else if (oldThr > 0) // initial capacity was placed in threshold

            newCap = oldThr;

        else {               // zero initial threshold signifies using defaults

            newCap = DEFAULT_INITIAL_CAPACITY;

            newThr = (int)(DEFAULT_LOAD_FACTOR * DEFAULT_INITIAL_CAPACITY);

        }

        if (newThr == 0) {

            float ft = (float)newCap * loadFactor;

            newThr = (newCap < MAXIMUM_CAPACITY && ft < (float)MAXIMUM_CAPACITY ?

                      (int)ft : Integer.MAX_VALUE);

        }

        threshold = newThr;

        @SuppressWarnings({"rawtypes","unchecked"})

            Node<K,V>[] newTab = (Node<K,V>[])new Node[newCap];

        table = newTab;

        if (oldTab != null) {

            for (int j = 0; j < oldCap; ++j) {

                Node<K,V> e;

                if ((e = oldTab[j]) != null) {

                    oldTab[j] = null;

                    if (e.next == null)

                        newTab[e.hash & (newCap - 1)] = e;

                    else if (e instanceof TreeNode)

                        ((TreeNode<K,V>)e).split(this, newTab, j, oldCap);

                    else { // preserve order

                        Node<K,V> loHead = null, loTail = null;

                        Node<K,V> hiHead = null, hiTail = null;

                        Node<K,V> next;

                        do {

                            next = e.next;

                            if ((e.hash & oldCap) == 0) {

                                if (loTail == null)

                                    loHead = e;

                                else

                                    loTail.next = e;

                                loTail = e;

                            }

                            else {

                                if (hiTail == null)

                                    hiHead = e;

                                else

                                    hiTail.next = e;

                                hiTail = e;

                            }

                        } while ((e = next) != null);

                        if (loTail != null) {

                            loTail.next = null;

                            newTab[j] = loHead;

                        }

                        if (hiTail != null) {

                            hiTail.next = null;

                            newTab[j + oldCap] = hiHead;

                        }

                    }

                }

            }

        }

        return newTab;

    }

不必看懂全部代码，看关键的部分即可。

 newCap = DEFAULT_INITIAL_CAPACITY;

 newThr = (int)(DEFAULT_LOAD_FACTOR * DEFAULT_INITIAL_CAPACITY);

Node<K,V>[] newTab = (Node<K,V>[])new Node[newCap];

table = newTab;

初始化数组之后计算新增元素的存放位置，在putVal()里实现，如果该位置没有元素则直接放入即可。

if ((p = tab[i = (n - 1) & hash]) == null)

    tab[i] = newNode(hash, key, value, null);

如果该位置已经存在元素，则进行链表操作，先判断该位置所有节点与新增节点是否存在重复的情况(key的hash值相同，且通过equals()判断结果为true)，重复则直接覆盖原值；hash值相等equals判断不同则表示元素不重复，添加到链表尾部。

判断头节点是否与新增元素相同，相同则直接覆盖。

if (p.hash == hash &&((k = p.key) == key || (key != null && key.equals(k))))

    e = p;

判断其中链表中的某个节点是否与新增相同，相同则覆盖，不存在相同的元素则直接添加至链表尾部。treeifyBin(tab, hash)暂时不管。

 else {

                for (int binCount = 0; ; ++binCount) {

                    if ((e = p.next) == null) {

                        p.next = newNode(hash, key, value, null);

                        if (binCount >= TREEIFY_THRESHOLD - 1) // -1 for 1st

                            treeifyBin(tab, hash);

                        break;

                    }

                    if (e.hash == hash &&

                        ((k = e.key) == key || (key != null && key.equals(k))))

                        break;

                    p = e;

                }

    }

当链表长度超过8时，对链表进行树化操作，将链表转为红黑树结构。

final void treeifyBin(Node<K,V>[] tab, int hash) {

        int n, index; Node<K,V> e;

        if (tab == null || (n = tab.length) < MIN_TREEIFY_CAPACITY)

            resize();

        else if ((e = tab[index = (n - 1) & hash]) != null) {

            TreeNode<K,V> hd = null, tl = null;

            do {

                TreeNode<K,V> p = replacementTreeNode(e, null);

                if (tl == null)

                    hd = p;

                else {

                    p.prev = tl;

                    tl.next = p;

                }

                tl = p;

            } while ((e = e.next) != null);

            if ((tab[index] = hd) != null)

                hd.treeify(tab);

        }

    }

关键的算法：

① return (key == null) ? 0 : (h = key.hashCode()) ^ (h >>> 16)

将hashCode的高16位与hashCode进行异或运算，主要是为了在table的length较小的时候，让高位也参与运算，并且不会有太大的开销，提高性能且让hashCode更加散列。保证hash值的后几位尽可能的不一样

② i = (n - 1) & hash]

(n - 1) & hash等同于 hash%n，采用位算符效率更高，且能尽量保证hash值的散列结果，如key的hash值为100，计算过程如下：

100 % 16 = 4

100 转为二进制：0110 0100

n-1 转为二进制：0000 1111

进行 &运算结果如下：

运算结果的后几位与hash值的后几位基本上保持一致，采用此算法既提高了效率又保证了结果与原值一样散列。

③ 扩容之后原元素存储的位置

扩容之后，根据原来的索引算法 e.hash & (n-1) 与e.hash & oldCap算法，原来的元素新索引为原索引或者(原索引+原数组长度)，

    do {

        next = e.next;

        if ((e.hash & oldCap) == 0) {

            if (loTail == null)

                loHead = e;

            else

                loTail.next = e;

            loTail = e;

        }

        else {

            if (hiTail == null)

                hiHead = e;

            else

                hiTail.next = e;

            hiTail = e;

        }

    } while ((e = next) != null);

    if (loTail != null) {

        loTail.next = null;

        newTab[j] = loHead;

    }

    if (hiTail != null) {

        hiTail.next = null;

        newTab[j + oldCap] = hiHead;

    }

继续使用上面的例子，如key的hash值为100，长度为16时存储的位置为4，长度扩容为32时，新索引算法根据：

e.hash & oldCap 计算结果为0，则新索引与原索引一样，结算结果不为0，则新索引 = 原索引 + 原数组长度

e.hash & oldCap：

结果为0表示hash值的倒数第5位为0，结果为1表示hash值的倒数第5位为1；

e.hash & oldCap结果为0，那么数组扩容之后的计算结果(e.hash & (newCap - 1))与(e.hash & (oldCap- 1))一致；

e.hash & oldCap结果为1，那么数组扩容之后的计算结果(e.hash & (newCap - 1)) = (e.hash & (oldCap- 1)) + oldCap；

4.4、get 读取逻辑

从HashMap 中get元素时，首先计算key的hash值，找到数组中对应位置的某一元素，然后根据key的equals方法从对应位置的链表中找到需要的元素。

如果第一个点是TreeNode，说明该节点采用了红黑树结构处理冲突，根据key的equals方法便利红黑树，得到节点值。

4.5、HashMap 扩容算法

当HashMap中的元素越来越多的时候，hash冲突的几率也就越来越高，因为数组的长度是固定的。所以为了提高查询的效率，就要对HashMap的数组进行扩容，在对HashMap数组进行扩容时，就会出现性能问题：原数组中的数据必须重新计算其在新数组中的位置，并放进去，这就是resize。

HashMap什么时候进行扩容呢？当HashMap中的元素个数 > 数组大小 * loadFactor时，就会进行数组扩容，loadFactor的默认值为0.75，这是一个折中的取值。默认情况下，数组大小为16，那么当HashMap中元素个数超过16 * 0.75=12的时候，就把数组的大小扩展为 216=32，即扩大一倍，然后重新计算每个元素在数组中的位置，而这是一个非常消耗性能的操作，所以如果我们已经预知HashMap中元素的个数，那么预设元素的个数能够有效的提高HashMap的性能。

4.6、总结

HashMap 在底层将 key-value 当成一个整体进行处理，这个整体就是一个 Node 对象。HashMap 底层采用一个 Node<K,V>[] 数组来保存所有的 key-value 对，当需要存储一个 Node 对象时，会根据hash算法来决定其在数组中的存储位置，在根据equals方法决定其在该数组位置上的链表中的存储位置；当需要取出一个Entry时，也会根据hash算法找到其在数组中的存储位置，再根据equals方法从该位置上的链表中取出该Node。

5、细节

5.1、table 数组长度为什么永远为2的幂次方

通过源码我们可以看到HashMap在初始化时，对数组容量进行了幂化处理：

     public HashMap(int initialCapacity, float loadFactor) {

         if (initialCapacity < 0)

             throw new IllegalArgumentException("Illegal initial capacity: " +

                                                initialCapacity);

         if (initialCapacity > MAXIMUM_CAPACITY)

             initialCapacity = MAXIMUM_CAPACITY;

         if (loadFactor <= 0 || Float.isNaN(loadFactor))

             throw new IllegalArgumentException("Illegal load factor: " +

                                                loadFactor);

         this.loadFactor = loadFactor;

         this.threshold = tableSizeFor(initialCapacity);

     }

幂化方法tableSizeFor()，它的功能返回大于等于输入参数的2的整数次幂的数，比如10返回16,10000返回16384。该算法让最高位的1后面的位全变为1，最后让结果n+1，即得到了2的整数次幂。

 static final int tableSizeFor(int cap) {

         int n = cap - 1;

         n |= n >>> 1;

         n |= n >>> 2;

         n |= n >>> 4;

         n |= n >>> 8;

         n |= n >>> 16;

         return (n < 0) ? 1 : (n >= MAXIMUM_CAPACITY) ? MAXIMUM_CAPACITY : n + 1;

     }

　　那么为什么要这么设置呢，原因总结下来有：

　　(1) 当数组长度为2的幂次方时，可以使用位运算来计算元素在数组中的位置，位运算相对高效；

(2) 增加hash值的随机性，减少hash冲突；如果length为2的幂次方，length-1 转为二进制时必定全是都是11111...的形式，这样使用hash值与length计算元素位置时，所有的位都能参与计算，如果不是2的幂次方，长度转为二进制可能包含0，与hash值与运算时，为0永远为0，起不到散列作用，散列结果出现冲突的概率相对大；

(3) 数组长度为2的幂次方，扩容后计算原来元素存放位置，不用再逐个重新计算，只需要判断hash值新增的bit位是1还是0，0则索引不变，1则新索引=原索引+原数组容量；

5.2 链表树化

链表长度大于8；
table数组长度 ≥ 64；

为什么要table数组容量大于64才树化，因为当table数组容量较小时，键值对节点hash的碰撞率会较高，进而导致链表长度较长，容易树化，此时应该先扩容而不是立刻树化，树化后的增、删、查相对复杂。

5.3 查找

HashMap查找也是非常快的，查找一个元素首先要知道key的hash值，HashMap中并不是直接通过key的hashCode方法获取hash值，而是通过内部自定义方法计算hash值的。

static final int hash(Object key) {

        int h;

        return (key == null) ? 0 : (h = key.hashCode()) ^ (h >>> 16);

    }

(h = key.hashCode()) ^ (h >>> 16) 是为了让高位数据与低位数据进行异或，变相让高位数据参与到计算中，int有32位，右移16位就能让低16位和高16位进行异或，进一步增加hash值的随机性。

8 HashMap的更多相关文章

HashMap与TreeMap源码分析
1. 引言在红黑树--算法导论(15)中学习了红黑树的原理.本来打算自己来试着实现一下,然而在看了JDK(1.8.0)TreeMap的源码后恍然发现原来它就是利用红黑树实现的(很惭愧学了Ja ...
HashMap的工作原理
HashMap的工作原理 HashMap的工作原理是近年来常见的Java面试题.几乎每个Java程序员都知道HashMap,都知道哪里要用HashMap,知道HashTable和HashMap之间 ...
计算机程序的思维逻辑 (40) - 剖析HashMap
前面两节介绍了ArrayList和LinkedList,它们的一个共同特点是,查找元素的效率都比较低,都需要逐个进行比较,本节介绍HashMap,它的查找效率则要高的多,HashMap是什么?怎么用? ...
Java集合专题总结（1）：HashMap 和 HashTable 源码学习和面试总结
2017年的秋招彻底结束了,感觉Java上面的最常见的集合相关的问题就是hash--系列和一些常用并发集合和队列,堆等结合算法一起考察,不完全统计,本人经历:先后百度.唯品会.58同城.新浪微博.趣分 ...
学习Redis你必须了解的数据结构——HashMap实现
本文版权归博客园和作者吴双本人共同所有,转载和爬虫请注明原文链接博客园蜗牛 cnblogs.com\tdws . 首先提供一种获取hashCode的方法,是一种比较受欢迎的方式,该方法参照了一位园友的 ...
HashMap与HashTable的区别
HashMap和HashSet的区别是Java面试中最常被问到的问题.如果没有涉及到Collection框架以及多线程的面试,可以说是不完整.而Collection框架的问题不涉及到HashSet和H ...
JDK1.8 HashMap 源码分析
一.概述以键值对的形式存储,是基于Map接口的实现,可以接收null的键值,不保证有序(比如插入顺序),存储着Entry(hash, key, value, next)对象. 二.示例 public ...
HashMap 源码解析
HashMap简介: HashMap在日常的开发中应用的非常之广泛,它是基于Hash表,实现了Map接口,以键值对(key-value)形式进行数据存储,HashMap在数据结构上使用的是数组+链表. ...
java面试题——HashMap和Hashtable 的区别
一.HashMap 和Hashtable 的区别我们先看2个类的定义 public class Hashtable extends Dictionary implements Map, Clonea ...
再谈HashMap
HashMap是一个高效通用的数据结构,它在每一个Java程序中都随处可见.先来介绍些基础知识.你可能也知道,HashMap使用key的hashCode()和equals()方法来将值划分到不同的桶 ...

随机推荐

linux 打包与解压命令--常用
一般情况用这俩个就足以了压缩 tar -czf jpg.tar.gz *.jpg //将目录里所有jpg文件打包成jpg.tar后,并且将其用gzip压缩,生成一个gzip压缩过的包,命名为jp ...
css文本超出隐藏显示三个点
文本超出显示三个点一般分两种情况一,单行文本超出隐藏 overflow:hidden; text-overflow:ellipsis; white-space:nowrap; 二,多行文本超出隐藏 ...
java中的多态总结
一.多态的概述 ava作为面向对象的语言,同样可以描述一个事物的多种形态.如Student类继承了Person类,一个Student的对象便既是Student,又是Person. Java中多态的代码 ...
WeakReference 与 SoftReference 区别
装载自:http://flyneil.iteye.com/blog/1345177 WeakReference与SoftReference都可以用来保存对象的实例引用,这两个类与垃圾回收有关. Wea ...
linux 中free命令
1.free 命令的选项使用 free 命令查看服务器内存使用情况.free [-b|-k|-m|-g|-h] [-l] [-o] [-t] [-s delay] [-c count] [-V](1) ...
printf固定一行打印倒计时的实现
@2019-07-15 [小记] #include<stdlib.h> #include <stdio.h> #include <time.h> #include ...
Hyperscan简介
Hyperscan是一款来自于Intel的高性能的正则表达式匹配库. 参考 Hyperscan简介
桌面Ubuntu卡死解决方案
通常情况下,我们用桌面Ubuntu会遇到卡住的的情况,我们一般会进行强制关机处理,但其实还有另一种操作,不用强制关机. 切换到tty模式,执行命令pkill X;start X;就能重新进入桌面,不用 ...
洛谷P1462 通往奥格瑞玛的道路(SPFA+二分答案)
题目背景在艾泽拉斯大陆上有一位名叫歪嘴哦的神奇术士,他是部落的中坚力量有一天他醒来后发现自己居然到了联盟的主城暴风城在被众多联盟的士兵攻击后,他决定逃回自己的家乡奥格瑞玛题目描述在艾泽拉斯, ...
git 忽略部分文件
忽略: git update-index --assume-unchanged .mymetadata 取消忽略: git update-index --no-assume-unchanged