HashMap详解

JDK1.8对HashMap底层的实现进行了优化，例如引入红黑树的数据结构和扩容的优化等

简介

Java为数据结构中的映射定义了一个接口java.util.Map

HashMap：它根据键的hashCode值存储数据，大多数情况下可以直接定位到它的值，因而具有很快的访问速度。
HashMap最多只允许一条记录的键为null，允许多条记录的值为null。非线程安全。
如果需要满足线程安全，可以用 Collections的synchronizedMap方法使HashMap具有线程安全的能力，或者使用ConcurrentHashMap
Hashtable：Hashtable是遗留类，很多映射的常用功能与HashMap类似，不同的是它承自Dictionary类。线程安全。并发性不如ConcurrentHashMap，因为ConcurrentHashMap引入了分段锁。
LinkedHashMap：LinkedHashMap是HashMap的一个子类，保存了记录的插入顺序，在用Iterator遍历LinkedHashMap时，先得到的记录肯定是先插入的，也可以在构造时带参数，按照访问次序排序。
TreeMap：TreeMap实现SortedMap接口，能够把它保存的记录根据键排序，默认是按键值的升序排序，也可以指定排序的比较器，当用Iterator遍历TreeMap时，得到的记录是排过序的。
在使用TreeMap时，key必须实现Comparable接口或者在构造TreeMap传入自定义的Comparator，否则会在运行时抛出java.lang.ClassCastException类型的异常。

内部实现

（1）存储结构-字段
（2）功能实现-方法

存储结构-字段

HashMap是数组+链表+红黑树（JDK1.8增加了红黑树部分）实现的。

这里需要讲明白两个问题：数据底层具体存储的是什么？这样的存储方式有什么优点呢？

HashMap类中有一个非常重要的字段，就是 Node[] table，即哈希桶数组

static class Node<K,V> implements Map.Entry<K,V> {

    final int hash;    //用来定位数组索引位置

    final K key;

    V value;

    Node<K,V> next;   //链表的下一个node

    Node(int hash, K key, V value, Node<K,V> next) { ... }

    public final K getKey(){ ... }

    public final V getValue() { ... }

    public final String toString() { ... }

    public final int hashCode() { ... }

    public final V setValue(V newValue) { ... }

    public final boolean equals(Object o) { ... }

}

Node是HashMap的一个内部类，实现了Map.Entry接口，本质是就是一个映射(键值对)。上图中的每个黑色圆点就是一个Node对象。

HashMap就是使用哈希表来存储的。Java中HashMap采用了拉链法解决冲突。
例如程序执行下面代码：
```
map.put("美团","小美");
```
系统将调用"美团"这个key的hashCode()方法得到其hashCode 值（该方法适用于每个Java对象），然后再通过Hash算法的后两步运算（高位运算和取模运算，下文有介绍）来定位该键值对的存储位置。

哈希桶数组需要在空间成本和时间成本之间权衡。那么通过什么方式来控制map使得Hash碰撞的概率又小，哈希桶数组（Node[] table）占用空间又少呢？答案就是好的Hash算法和扩容机制。

HashMap的默认构造函数就是对下面几个字段进行初始化

int threshold;             // 所能容纳的key-value对极限

final float loadFactor;    // 负载因子

int modCount;              // 用来记录HashMap内部结构发生变化的次数

int size;

Node[] table的初始化长度length(默认值是16)，Load factor为负载因子(默认值是0.75)，threshold是HashMap所能容纳的最大数据量的Node(键值对)个数。

threshold就是在此Load factor和length(数组长度)对应下允许的最大元素数目，超过这个数目就重新resize(扩容)，扩容后的HashMap容量是之前容量的两倍。

在HashMap中，哈希桶数组table的长度length大小必须为2的n次方(一定是合数)，这是一种非常规的设计，常规的设计是把桶的大小设计为素数。相对来说素数导致冲突的概率要小于合数[2].

HashMap采用这种非常规设计，主要是为了在取模和扩容时做优化，同时为了减少冲突，HashMap定位哈希桶索引位置时，也加入了高位参与运算的过程。

当链表长度太长（默认超过8）时，链表就转换为红黑树，利用红黑树快速增删改查的特点提高HashMap的性能。

功能实现-方法

HashMap的内部功能实现很多，本文主要讲述：

根据key获取哈希桶数组索引位置
put方法的详细执行
扩容过程

确定哈希桶数组索引位置

先看看源码的实现(方法一+方法二):

方法一：

static final int hash(Object key) {   //jdk1.8 & jdk1.7

     int h;

     // h = key.hashCode() 为第一步 取hashCode值

     // h ^ (h >>> 16)  为第二步 高位参与运算

     return (key == null) ? 0 : (h = key.hashCode()) ^ (h >>> 16);

}

方法二：

static int indexFor(int h, int length) {  //jdk1.7的源码，jdk1.8没有这个方法，但是实现原理一样的

     return h & (length-1);  //第三步 取模运算

}

这里的Hash算法本质上就是三步：取key的hashCode值、高位运算、取模运算。
只要它的hashCode()返回值相同，那么程序调用方法一所计算得到的Hash码值总是相同的。我们首先想到的就是把hash值对数组长度取模运算，这样一来，元素的分布相对来说是比较均匀的。但是，模运算的消耗还是比较大的，在HashMap中是这样做的：调用方法二来计算该对象应该保存在table数组的哪个索引处。

而HashMap底层数组的长度总是2的n次方，这是HashMap在速度上的优化。当length总是2的n次方时，h& (length-1)运算等价于对length取模，也就是h%length，但是&比%具有更高的效率。

分析HashMap的put方法

JDK1.8HashMap的put方法源码如下:

 1 public V put(K key, V value) {

 2     // 对key的hashCode()做hash

 3     return putVal(hash(key), key, value, false, true);

 4 }

 5

 6 final V putVal(int hash, K key, V value, boolean onlyIfAbsent,

 7                boolean evict) {

 8     Node<K,V>[] tab; Node<K,V> p; int n, i;

 9     // 步骤①：tab为空则创建

10     if ((tab = table) == null || (n = tab.length) == 0)

11         n = (tab = resize()).length;

12     // 步骤②：计算index，并对null做处理

13     if ((p = tab[i = (n - 1) & hash]) == null)

14         tab[i] = newNode(hash, key, value, null);

15     else {

16         Node<K,V> e; K k;

17         // 步骤③：节点key存在，直接覆盖value

18         if (p.hash == hash &&

19             ((k = p.key) == key || (key != null && key.equals(k))))

20             e = p;

21         // 步骤④：判断该链为红黑树

22         else if (p instanceof TreeNode)

23             e = ((TreeNode<K,V>)p).putTreeVal(this, tab, hash, key, value);

24         // 步骤⑤：该链为链表

25         else {

26             for (int binCount = 0; ; ++binCount) {

27                 if ((e = p.next) == null) {

28                     p.next = newNode(hash, key,value,null);

                        //链表长度大于8转换为红黑树进行处理

29                     if (binCount >= TREEIFY_THRESHOLD - 1) // -1 for 1st

30                         treeifyBin(tab, hash);

31                     break;

32                 }

                    // key已经存在直接覆盖value

33                 if (e.hash == hash &&

34                     ((k = e.key) == key || (key != null && key.equals(k))))                                          break;

36                 p = e;

37             }

38         }

39

40         if (e != null) { // existing mapping for key

41             V oldValue = e.value;

42             if (!onlyIfAbsent || oldValue == null)

43                 e.value = value;

44             afterNodeAccess(e);

45             return oldValue;

46         }

47     }

48     ++modCount;

49     // 步骤⑥：超过最大容量 就扩容

50     if (++size > threshold)

51         resize();

52     afterNodeInsertion(evict);

53     return null;

54 }

扩容机制

当然Java里的数组是无法自动扩容的，方法是使用一个新的数组代替已有的容量小的数组，就像我们用一个小桶装水，如果想装更多的水，就得换大水桶。

鉴于JDK1.8融入了红黑树，较复杂，为了便于理解我们仍然使用JDK1.7的代码，好理解一些，本质上区别不大，具体区别后文再说。

 1 void resize(int newCapacity) {   //传入新的容量

 2     Entry[] oldTable = table;    //引用扩容前的Entry数组

 3     int oldCapacity = oldTable.length;

 4     if (oldCapacity == MAXIMUM_CAPACITY) {  //扩容前的数组大小如果已经达到最大(2^30)了

 5         threshold = Integer.MAX_VALUE; //修改阈值为int的最大值(2^31-1)，这样以后就不会扩容了

 6         return;

 7     }

 8

 9     Entry[] newTable = new Entry[newCapacity];  //初始化一个新的Entry数组

10     transfer(newTable);                         //！！将数据转移到新的Entry数组里

11     table = newTable;                           //HashMap的table属性引用新的Entry数组

12     threshold = (int)(newCapacity * loadFactor);//修改阈值

13 }

transfer()方法将原有Entry数组的元素拷贝到新的Entry数组里。

 1 void transfer(Entry[] newTable) {

 2     Entry[] src = table;                   //src引用了旧的Entry数组

 3     int newCapacity = newTable.length;

 4     for (int j = 0; j < src.length; j++) { //遍历旧的Entry数组

 5         Entry<K,V> e = src[j];             //取得旧Entry数组的每个元素

 6         if (e != null) {

 7             src[j] = null;//释放旧Entry数组的对象引用（for循环后，旧的Entry数组不再引用任何对象）

 8             do {

 9                 Entry<K,V> next = e.next;

10                 int i = indexFor(e.hash, newCapacity); //！！重新计算每个元素在数组中的位置

11                 e.next = newTable[i]; //标记[1]

12                 newTable[i] = e;      //将元素放在数组上

13                 e = next;             //访问下一个Entry链上的元素

14             } while (e != null);

15         }

16     }

17 }

同一位置上新元素总会被放在链表的头部位置
我们在扩充HashMap的时候，不需要像JDK1.7的实现那样重新计算hash，只需要看看原来的hash值新增的那个bit是1还是0就好了

(这部分并没有完全懂)

线程安全

HashMap在多线程的情况下可能链结构会受到破坏，导致无限循坏(JDK8 可能已经解决)

小结

(1) 扩容是一个特别耗性能的操作，所以当程序员在使用HashMap的时候，估算map的大小，初始化的时候给一个大致的数值，避免map进行频繁的扩容。

(2) 负载因子是可以修改的，也可以大于1，但是建议不要轻易修改，除非情况非常特殊。

(3) HashMap是线程不安全的，不要在并发的环境中同时操作HashMap，建议使用ConcurrentHashMap。

(4) JDK1.8引入红黑树大程度优化了HashMap的性能。

参考资料：

美团点评技术团队 Java 8系列之重新认识HashMap https://zhuanlan.zhihu.com/p/21673805
为什么一般hashtable的桶数会取一个素数 http://blog.csdn.net/liuqiyao_01/article/details/14475159

转载---https://www.cnblogs.com/xawei/p/6747660.html

面试真题-----hashMap原理的更多相关文章

2018最新大厂Android面试真题
前言又到了金三银四的面试季,自己也不得不参与到这场战役中来,其实是从去年底就开始看,android的好机会确实不太多,但也还好,3年+的android开发经历还是有一些面试机会的,不过确实不像几年前 ...
2021年最新字节跳动Android面试真题解析
概述时间过得是真TM快,回想自己是16年从学校毕业,现在是出来工作的第五个年头啦.在不同的大小公司都待过,就在前段时间顺利的完成了一次跳槽涨薪,面试了几家公司,最终选择了字节跳动.今特此前来跟大家进 ...
2020年！最全Android大厂面试真题合集（附答案）
这份Android面试真题涵盖了图片,网络和安全机制,网络,数据库,插件化.模块化.组件化.热修复.增量更新.Gradle,架构设计和设计模式,Android Framework .Android优秀 ...
分享13道上海尚学堂拿回来的Java面试真题，这些都是Java核心常见问题，想拿OFFER必看！
上海尚学堂Java培训学员参加面试带回来的真题,分享出来与大家,希望大家能认真地看看做一遍.后面有详细题解答案,对照下,看看自己做得怎么样,把这些面试遇到的真题全部掌握,做好面试笔试前的准备. 一.1 ...
2021字节跳动校招秋招算法面试真题解题报告--leetcode19 删除链表的倒数第 n 个结点，内含7种语言答案
2021字节跳动校招秋招算法面试真题解题报告--leetcode19 删除链表的倒数第 n 个结点,内含7种语言答案 1.题目描述给你一个链表,删除链表的倒数第 n 个结点,并且返回链表的头结点. ...
WEB前端面试真题 - 2000！大数的阶乘如何计算？
HTML5学堂-码匠:求某个数字的阶乘,很难吗?看上去这道题异常简单,却不曾想里面暗藏杀机,让不少前端面试的英雄好汉折戟沉沙. 面试真题题目如何求"大数"的阶乘(如1000的阶乘 ...
Python面试真题答案或案例
Python面试真题答案或案例如下: 请等待. #coding=utf-8 #1.一行代码实现1--100之和 print(sum(range(1,101))) #2.如何在一个函数内部修改全局变量 ...
拼多多后台开发面试真题：如何用Redis统计独立用户访问量
众所周至,拼多多的待遇也是高的可怕,在挖人方面也是不遗余力,对于一些工作3年的开发,稍微优秀一点的,都给到30K的Offer,当然,拼多多加班也是出名的,一周上6天班是常态,每天工作时间基本都是超过1 ...
拼多多面试真题：如何用 Redis 统计独立用户访问量！
阅读本文大概需要 2.8 分钟. 作者:沙茶敏碎碎念众所周至,拼多多的待遇也是高的可怕,在挖人方面也是不遗余力,对于一些工作 3 年的开发,稍微优秀一点的,都给到 30K 的 Offer. 当然,拼 ...

随机推荐

android 开发时间选择器TimePicker的使用
android系统自带时间控件:DatePicker 日期显示控件 DatePickerDialog 日期对话框控件TimePicker 时间显示控件 TimePickerDialog 时间对话框控件 ...
form表单的默认行为
<form action=""></form> action 位空,默认提交数据到当前页.不知名method,默认为get方法 /?arg1=val1&am ...
tkinter events format
tkinter label 标签主要显示,通常不与用户进行交互事件 frame容器上获取点击的事件坐标 event.x,event.y event.key获取键盘数据
<转载> GIT 操作小结 http://www.cnblogs.com/-ding/p/6008096.html
参考: http://www.cnblogs.com/zyf-zhaoyafei/p/4486220.html 作者:万境绝尘转载请注明出处:http://blog.csdn.net/shulian ...
Python基础2 列表字典集合
本节内容列表.元组操作字符串操作字典操作集合操作文件操作字符编码与转码 1. 列表.元组操作列表是我们最以后最常用的数据类型之一,通过列表可以对数据实现最方便的存储.修改等操作定义列表 ...
centos7+hadoop完全分布式集群搭建
Hadoop集群部署,就是以Cluster mode方式进行部署.本文是基于JDK1.7.0_79,hadoop2.7.5. 1.Hadoop的节点构成如下: HDFS daemon: NameN ...
05.linux目录结构
bin 存放二进制可执行文件(ls,cat,mkdir等) boot 存放用于系统引导时使用的各种文件 dev 用于存放设备文件 etc 存放系统配置文件 home 存放所有 ...
PHP单点登陆
本文主要介绍了利用webservice,session,cookie技术,来进行通用的单点登录系统的分析与设计.具体实现语言为PHP.单点登录,英文名为Single Sign On,简称为 SSO, ...
爬虫--Scrapy框架课程介绍
Scrapy框架课程介绍: 框架的简介和基础使用持久化存储代理和cookie 日志等级和请求传参 CrawlSpider 基于redis的分布式爬虫一scrapy框架的简介和基础使用 a) ...
django 之Paginator
Django自身提供了一些类来实现管理分页,数据被分在不同的页面中,并带有“上一页/下一页”标签.这个类叫做Pagination,其定义位于 django/core/paginator.py 中. p ...

面试真题-----hashMap原理