【简单了解系列】从基础的使用来深挖HashMap
HashMap定义
说的专业一点,HashMap是常用的用于存储key-value键值对数据的一个集合,底层是基于对Map的接口实现。每一个键值对又叫Entry,这些Entry分散的存储在一个由数组和链表组成的集合中。当然在Java8中,Entry变成了Node。
说的通俗一点,就像你去住酒店,你下单提供了你的手机号,然后到酒店了给你一个房卡,你知道了你的房号之后再根据这个房号去找对应的房间一样。
房号就是key,房间里就是value。你通过手机号下单到酒店给你房号可以理解为对key哈希的过程。你找的过程就是HashMap根据key取到对应value的过程
HashMap底层结构
table数组
首先我们要知道,我们存在HashMap中的数据最终是存了什么地方,就是如下的结构。
transient HashMap.Node<K, V>[] table;
可能有人看到transient有些陌生,被这个关键字修饰的变量将不会被序列化。简单来说,就是序列化之后这个字段的值就会被干掉,用于一些不需要传递给第三方的字段。
例如一个矩形,在本地使用的时候,有长、宽和面积三个属性,但是你要把这个对象给第三方用,但是由于面积可以通过另外两个属性推导出来,这个key就不需要传递给第三方了。
这种情况就可以用transient关键字修饰。总的来说就是,被transient修饰的变量将不再参与序列化。
Node节点
下面是Node节点的定义。
static class Node<K, V> implements Entry<K, V> {
final int hash;
final K key;
V value;
Node<K,V> next;
Node(int hash, K key, V value, Node<K,V> next) {
this.hash = hash;
this.key = key;
this.value = value;
this.next = next;
}
......
public final V getValue() {
return value;
}
public final V setValue(V newValue) {
V oldValue = value;
value = newValue;
return oldValue;
}
......
}
上面的代码省略了一些Getter和Setter,结构还是非常清晰和简单。可以看到这个节点存储了下一个节点的对象的引用,形成了一个链表的结构。
为什么要用链表?用数组不行吗?刚刚上面提到过,这个集合是由链表和数组组成的。因为再完美的hash算法都有可能产生哈希冲突,所以两个不同key的元素可以被放在同一个地方。
而单用数组明显不能满足这个需求,而在数组的槽位上存一个链表就可以解决这个问题。
HashMap的使用
上面简单了解了HashMap的定义和基本的底层数据结构,接下来通过HashMap在平常开发中的使用来具体看看怎么实现的。
Map<String, String> map = new HashMap<>();
map.put("搜索关注公众号", "SH的全栈笔记"); // 设置值
map.get("搜索关注公众号"); // SH的全栈笔记
赋值
put函数
上面的Put方法,我们传入了两个参数,Key和Value,函数的定义如下。
java
public V put(K key, V value) {
return this.putVal(hash(key), key, value, false, true);
}
应该跟大多数人YY的put方法差不多,put方法再调用了putVal
方法。
首先经过了hash之后的key,是一个整型的hashcode,其次是我们传入的key和value。最后两个布尔值,后面会提到。
首先一进入putVal就会声明存放数据的table,如果这个HashMap是首次设置值,就会被初始化一个默认size的table,且所有元素的初始值都是NULL,下面是初始化这块的核心代码,我省略掉了一些无关的变量声明。
有趣的是,初始化调用的是
resize
方法。
Node<K,V>[] tab;
int n;
if ((tab = table) == null || (n = tab.length) == 0) {
n = (tab = resize()).length;
}
newCap = 16; // 默认容量
newThr = 12; // 默认阈值
默认值为啥是16
上面初始化table的默认size给的是16,当然我们也可以自己定义,但是建议是最好是2的幂。有的朋(杠)友(精)就要问了,为什么是16呢?我13,14不他不香吗?我们接下来就要分析为什么不香。
当我们放元素进入map的时候,它是如何确定元素在table数组中的位置的呢?我们拿搜索关注公众号
这个key举例。
hash = (h = key.hashCode()) ^ h >>> 16
p = tab[i = n - 1 & hash]
可以看到,是将hash之后key和数组的length-1做与运算得到了一个数组下标。而且,hash值的二进制的位数,大多数情况下都会比table的长度的二进制位数多。换句话说,与运算之后得到的数组下标index完全取决于hash值的后几位。
16 // n 10000
15 // n-1 1111
14 // 1110
13 // 1101
12 // 1100
11 // 1011
10 // 1010
从13、14的二进制值可以看出来,存在0和1在二进制位数上分布不均匀的情况,这样一来就会造成一个问题,那就是会存在某些不同的hash值经过与运算得到的值是一样的。这样就会导致hash到的index不均匀,换句话说有些index可能永远都不会被hash到,而有些index也被频繁的hash到。
本来hash算法是要求计算的结果要均匀分布的,但是上述的结果明显不符合均匀分布的要求。用n-1而不用n也是因为同样的道理。如果这个值是2的幂,那么2的幂的值-1的所有二进制位数都是1,这样有利于hash计算的均匀分布。
综上所述,不一定是16,2的幂都可以,16只是一个经验值。
自动扩容
除了size,初始化的时候还会设定一个阈值,值为12,newThr = 12
,这里需要提到一个概念负载因子,HashMap的实现里默认给的是0.75。
public HashMap() {
this.loadFactor = 0.75F; // 12/16=0.75
}
负载因子是用来干嘛的呢?最开始我们提到了,最开始存储的数据结构是数组,这种基础结构是有size设定的。当我们不停的往map里存数据的时候,总会存满,当元素快存满的时候,我们就需要扩大map的容量,来容纳更多的元素,这就需要一个自动扩容的机制了。
不是扩容弹匣,想啥呢
在当数据量大于超过设定的阈值的时候(容量*负载因子),自动对map进行扩容,以存放更多的数据。
自动扩容做了什么事情呢?总结来说就是两件事。
- 创建新的数组,大小是原来数组的一倍。
- 将元素rehash到新的数组
为什么要rehash呢?上面我们提到过了,当元素被放进map时,确认下标的方法是table的长度-1和hash值做与运算,现在table的长度发生了变化,那么自然而然,元素获取下标的运算结果也就跟之前的不一样了, 所以需要将老的map中的元素再按照新的table长度rehash到扩容后的table中。
所以在当你对性能有一定要求,且你知道你创建map的时候size的时候,可以指定size,这样一来就不会因为数据量持续的增大而去频繁的自动扩容了
put的过程中到底发生了什么
了解了底层数据结构和自动扩容机制,接下来我们来看一下put过程中究竟发生了什么。我们上面说过了,会通过数组的长度-1和hash值与运算得到一个数组下标。
如果该位置没有元素,那么就很简单,直接新建一个节点即可然后放置在数据的具体位置即可。
tab[i] = this.newNode(hash, key, value, (HashMap.Node)null);
但是如果该下标已经有元素了,这种情况HashMap是怎么处理的呢?这也要看情况。
如果是跟当前槽位相同的key,就直接覆盖。这就是我们修改某个key的值会发生的情况。那HashMap怎么来判断是不是同一个key呢?就像下面这样。
p
就是当前槽位上已经有的元素,如果新、老元素的key的hashCode和值都相同且key不为空,那么就能证明这两个key是相同的,那么此时只需要覆盖即可。p.hash == hash && ((k = p.key) == key || (key != null && key.equals(k)))
而如果p是
TreeNode
的实例,那么就代表当前槽位已经是一个红黑树了,此时只需要往这个树里putTreeVal
即可。至于为什么是红黑树,哪儿来的红黑树,下面马上就要讲到了。最后一种情况就是,既不是已经存在的元素也不是TreeNode的实例,也不是红黑树。这种情况下,它就是一个普通的Node。你可以理解为链表,如果hash冲突了,就把这个Node放到该位置的链表末尾。Java8之前采用的头插法,而Java8换成了尾插法,至于为什么要换,后面会讲。
当该位置的链表中的元素超过了TREEIFY_THRESHOLD
所设置的数量时,就会触发树化,将其转化为红黑树。Java8里给的默认值是8。
为啥要转化成红黑树
首先我们要知道为什么要树化。当大量的数据放入Map中,Hash冲突会越来越多,某些位置就会出现一个很长的链表的情况。这种情况下,查询时间复杂度是O(n) ,删除的时间复杂度也是O(n),查询、删除的效率会大大降低。而同样的数据情况下,平衡二叉树的时间复杂度都是O(logn)。
有的朋(杠)友(精)看到这个小标题不乐意了,怎么就直接用红黑树了?我用二叉查找树它不香吗?
不了解二叉查找树的,我把它的特点列在了下面。
左子树上的所有节点的值都小于根节点的值
右子树上的所有节点的值都大于根节点的值
再精简一下就是,左小右大
但是,如果数据大量的趋近于有序,例如所有的节点都比根节点大,那这个时候二叉查找树就退化成了链表,查询效率就会急剧下降。看到这是不是觉得有点不对,我才从链表树化,你这又给我退化成了链表?
朋友看到这又不乐意了,好好好,就算二叉查找树不行,那AVL树它也不行?用了AVL树就不会出现上面所描述的效率急剧退化的情况了不是吗?
的确是这样,AVL也可以叫平衡二叉搜索树。AVL树会在其有退化成链表的趋势的时候(左右子树的高度差超过某个阈值)调整树的结构,也就是通过左旋和右旋来使其左右子树的高度尽量平衡。
OK,OK,就算你解释清楚了为什么要树化,那为什么一定要用红黑树?
具体的细节也就不在这里赘述,不知不觉已经写了这么多了,直接说结论吧。AVL树的查找速度更快,但是相应的插入和修改的速度较慢。而红黑树则在插入和修改操作较为密集的时候表现更好。
而总结我们日常的HashMap使用,大多数情况下插入和修改应该是比查找更频繁一些的。而在这种情况下,红黑树的综合表现会更好一些。
至于红黑树的相关细节,涉及的东西还是挺多,我之后会单独拿一个篇幅来讲。
为什么要用尾插法
我们目前用的最多的是Java8,在Java8中采用的是尾插法,Java8之前采用的是头插法。
那为什么后面又变成了尾插法呢?放心,肯定不是设计者闲的蛋疼,没事来改个设计。这样做一定是有一定的道理的。在解释这个问题之前,我们先来看看,如果采取头插法在多线程下的情况下会出现什么问题。
我们讲过,假设数组中index=1的位置已经有了元素A
,之后又有元素B
被分配到了index=1的位置。那么在下标为1的槽位上的链表就变成了B -> A。
此时再分配了一个新元素C
,链表又被更新成了C -> B -> A。这也是为什么叫头插法,新的元素会被放在链表的头节点,因为当时设计的时候考虑到后被放入map的元素被访问的可能性更大。
上面讲到了在当不停的往map中放置元素后,超过了设定的阈值,就会触发自动扩容。此时会触发两个操作,一是创建一个容量为之前两倍的底层数组,并且将老的数组中的元素rehash到新的数组中。
而由于数组的长度发生了变化,这就导致了元素的rehash结果跟之前在老数组中的位置不一样。
首先我们来模拟一下rehash的过程,假设新的数组中下标为2的槽位是空的。
首先元素C,被放置在了其他位置。
然后元素B,被rehash到了下标为2的槽位, 至此都没有问题。
最后元素A,同样被rehash到了下标为2的槽位,此时链表变成了A -> B。到这就有问题了,最开始B的next指向的是A节点。但是rehash之后A的next又指向B,看到这你应该就能明白发生了什么。
我看到很多的对JDK1.7版的HashMap在多线程的情况下扩容会出现死锁的解释都只到了环形链表。但是其实就算是环形链表,只要找到了对应的元素,就会直接退出循环的逻辑,也不会造成死循环。
实际情况是,当自动扩容形成了环形链表后,当你去Get了一个在entry链上不存在的元素时,就会出现死循环的情况。
取值
上面聊了给HashMap赋值的大概过程,接下来聊一下从HashMap获取值会发生什么。get方法的开始,跟put一样很简单。
public V get(Object key) {
Node<K,V> e;
return (e = getNode(hash(key), key)) == null ? null : e.value;
}
可以看到,取值的核心操作是getNode
来负责完成的。
首先第一件事就是去check的第一个元素是不是当前查找的元素。
如果不是,而且当前槽位已经被树化成了红黑树,就走红黑树的getTreeNode
方法。
如果还没有被树化,只是普通的链表,则顺着next一路找下去。
由于get方法逻辑和实现都比较容易理解,就不贴太多源码了。
结尾
由于最近太忙了,工作和生活中的事都巨多,这篇文章是几周利用零零散散的时间写出来的,如果有什么问题,欢迎大家在评论区讨论。
如果你觉得这篇文章对你有帮助,还麻烦点个赞,关个注,分个享,留个言
也可以微信搜索公众号【SH的全栈笔记】,当然也可以直接扫描二维码关注
【简单了解系列】从基础的使用来深挖HashMap的更多相关文章
- [WPF系列]从基础起步学习系列计划
引言 WPF技术已经算不什么新技术,一搜一大把关于WPF基础甚至高级的内容.之前工作中一直使用winform所以一直没有深入学习WPF,这次因项目中使用了WPF技术来实现比较酷的展示界面.我在这里只是 ...
- 快速入门系列--WebAPI--01基础
ASP.NET MVC和WebAPI已经是.NET Web部分的主流,刚开始时两个公用同一个管道,之后为了更加的轻量化(WebAPI是对WCF Restful的轻量化),WebAPI使用了新的管道,因 ...
- Windows 8实例教程系列 - 数据绑定基础实例
原文:Windows 8实例教程系列 - 数据绑定基础实例 数据绑定是WPF,Silverlight以及Windows Phone应用开发中最为常用的开发技术,在基于XAML的Windows Stor ...
- Android自定义控件系列之基础篇
一.概述 在android开发中很多UI控件往往需要进行定制以满足应用的需要或达到更加的效果,接下来就通过一个系列来介绍自定义控件,这里更多是通过一些案例逐步去学习,本系列有一些典型的应用,掌握好了大 ...
- [转]快速入门系列--WebAPI--01基础
本文转自:http://www.cnblogs.com/wanliwang01/p/aspnet_webapi_base01.html ASP.NET MVC和WebAPI已经是.NET Web部分的 ...
- 「译」JUnit 5 系列:基础入门
原文地址:http://blog.codefx.org/libraries/junit-5-basics/ 原文日期:25, Feb, 2016 译文首发:Linesh 的博客:JUnit 5 系列: ...
- Java 之 I/O 系列 01 ——基础
Java 之 I/O 系列 目录 Java 之 I/O 系列 01 ——基础 Java 之 I/O 系列 02 ——序列化(一) Java 之 I/O 系列 02 ——序列化(二) 整理<疯狂j ...
- HTML5简单入门系列(五)
前言 本篇将讲述HTML5的服务器发送事件(server-sent event) Server-Sent 事件 Server-Sent 事件是单向消息传递,指的是网页自动获取来自服务器的更新. 以前的 ...
- HTML5简单入门系列(二)
前言 上篇中写到HTML5中的画布(canvas)元素,查看了canvas其他的资料,发现这个元素相关内容太多,鉴于本系列只是基础(主要是LZ也是初学),不再做太多介绍,有机会的话再单独写相关内容.说 ...
随机推荐
- SQL server 2012安装教程
转自:https://blog.csdn.net/u013162035/article/details/78567389 注]博主使用的是SQL Server2012 其他版本的安装类似.[第一步]下 ...
- 深度学习中正则化技术概述(附Python代码)
欢迎大家关注我们的网站和系列教程:http://www.tensorflownews.com/,学习更多的机器学习.深度学习的知识! 磐石 介绍 数据科学研究者们最常遇见的问题之一就是怎样避免过拟合. ...
- POJ 1797 最短路变形所有路径最小边的最大值
题意:卡车从路上经过,给出顶点 n , 边数 m,然后是a点到b点的权值w(a到b路段的承重),求卡车最重的重量是多少可以从上面经过. 思路:求所有路径中的最小的边的最大值.可以用迪杰斯特拉算法,只需 ...
- CDN 内容分发
1,传统架构访问服务器资源: www.aiyuesheng.com/page/logo.png 这是部署在服务器上的一张图片,因为服务器部署在上海,所以在上海或周边的人访问要稍微快一点,但是,若是云南 ...
- SimpleITK 和 Nibabel 读取医学图像 nii 数据(2D显示)
SimpleITK 和 Nibabel 区别在于:(nii图像可以看成2维,也可以看成三维) SimpleITK读取数据是(X,Y,Z)显示,Nibabel读取图像是(Z,Y,X)显示,也就是Niba ...
- MATLAB 一维随机变量及其概率分布
1.两点分布 clc clear a=rand(1,10); for ii=1:10 if a(ii)<0.2 a(ii)=0; else a(ii)=1; end end a x=0的概率为0 ...
- MATLAB—地图
一.画亚洲地图 1.worldmap() (1) clear all worldmap('World') clear all worldmap('World')%世界地图 load coast %载入 ...
- IdentityServer 部署踩坑记
IdentityServer 部署踩坑记 Intro 周末终于部署了 IdentityServer 以及 IdentityServerAdmin 项目,踩了几个坑,在此记录分享一下. 部署架构 项目是 ...
- XXE白盒审计 PHP
XXE与XML注入的区别 https://www.cnblogs.com/websecurity-study/p/11348913.html XXE又分为内部实体和外部实体.我简单区分为内部实体就是自 ...
- PTA数据结构与算法题目集(中文) 7-11
PTA数据结构与算法题目集(中文) 7-11 7-11 关键活动 (30 分) 假定一个工程项目由一组子任务构成,子任务之间有的可以并行执行,有的必须在完成了其它一些子任务后才能执行.“任务调度 ...