https://www.cnblogs.com/chengxiao/p/6059914.html

散列表

哈希表是根据关键码值而直接进行访问的数据结构。也就是说,它能通过把关键码值映射到表中的一个位置来访问。这个映射函数就叫做散列函数,存放记录的数组就叫散列表。

给定表M,存在函数f(key),对任意给定的关键字值key,代入函数后若能得到包含该关键字的记录在表中的地址,则称表M为哈希(Hash)表,函数f(key)为哈希(Hash) 函数。

在哈希表中进行添加,删除,查找等操作,性能十分之高,不考虑哈希冲突的情况下,仅需一次定位即可完成,时间复杂度为O(1)。

哈希冲突

如果两个不同的元素,通过哈希函数得出的实际存储地址相同怎么办?也就是说,当我们对某个元素进行哈希运算,得到一个存储地址,然后要进行插入的时候,发现已经被其他元素占用了,其实这就是所谓的哈希冲突,也叫哈希碰撞。前面我们提到过,哈希函数的设计至关重要,好的哈希函数会尽可能地保证计算简单散列地址分布均匀,但是,我们需要清楚的是,数组是一块连续的固定长度的内存空间,再好的哈希函数也不能保证得到的存储地址绝对不发生冲突。那么哈希冲突如何解决呢?哈希冲突的解决方案有多种:开放定址法(发生冲突,继续寻找下一块未被占用的存储地址),再散列函数法,链地址法,而HashMap即是采用了链地址法,也就是数组+链表的方式。

HashMap实现原理

HashMap的数据结构

HashMap的主干是一个Entry数组,Entry是HashMap的基本组成单元,每一个Entry包含一个key-value键值对还有下一个节点,因此Entry是一个单向链表。代码如下:

  1. static class Entry implements Map.Entry {
  2. final K key;
  3. V value;
  4. Entry next;
  5. int hash;
  6. Entry(int h, K k, V v, Entry n) {
  7. value = v;
  8. next = n;
  9. key = k;
  10. hash = h;
  11. }
  12. public final K getKey() {
  13. return key;
  14. }
  15. public final V getValue() {
  16. return value;
  17. }
  18. public final V setValue(V newValue) {
  19. V oldValue = value;
  20. value = newValue;
  21. return oldValue;
  22. }
  23. public final boolean equals(Object o) {
  24. if (!(o instanceof Map.Entry))
  25. return false;
  26. Map.Entry e = (Map.Entry)o;
  27. Object k1 = getKey();
  28. Object k2 = e.getKey();
  29. if (k1 == k2 || (k1 != null && k1.equals(k2))) {
  30. Object v1 = getValue();
  31. Object v2 = e.getValue();
  32. if (v1 == v2 || (v1 != null && v1.equals(v2)))
  33. return true;
  34. }
  35. return false;
  36. }
  37. public final int hashCode() {
  38. return (key==null ? 0 : key.hashCode()) ^
  39. (value==null ? 0 : value.hashCode());
  40. }
  41. public final String toString() {
  42. return getKey() + "=" + getValue();
  43. }
  44. void recordAccess(HashMap m) {
  45. }
  46. void recordRemoval(HashMap m) {
  47. }
  48. }

HashMap的整体结构如下图:

可以看出,HashMap是有数组和链表组成的,数组是HashMap的主体,链表是为了解决哈希冲突而存在的。由上面结构可以看出来,如果不存在链表,HashMap的查询修改删除性能都非常好,如果存在链表很多,即存在很多哈希冲突,则性能会降低很多,因为到指定位置后还要遍历整个链表。

HashMap源码分析

HashMap的继承关系

HashMap继承于AbstractMap,实现了Map<K,V>

  1. java.lang.Object
  2. java.util.AbstractMap
  3. java.util.HashMap
  4. public class HashMap
  5. extends AbstractMap
  6. implements Map, Cloneable, Serializable { }
HashMap的关键属性

源码如下:

  1. // 默认的初始容量是16,必须是2的幂。
  2. static final int DEFAULT_INITIAL_CAPACITY = 16;
  3.     // 最大容量(必须是2的幂且小于2的30次方,传入容量过大将被这个值替换)
  4. static final int MAXIMUM_CAPACITY = 1 << 30;
  5. // 默认加载因子
  6. static final float DEFAULT_LOAD_FACTOR = 0.75f;
  7. / 存储数据的Entry数组,长度是2的幂。
  8.     // HashMap是采用拉链法实现的,每一个Entry本质上是一个单向链表
  9. transient Entry[] table;
  10.     // HashMap的大小,它是HashMap保存的键值对的数量
  11. transient int size;
  12.     // HashMap的阈值,用于判断是否需要调整HashMap的容量(threshold = 容量*加载因子)
  13. int threshold;
  14.     // 加载因子实际大小
  15. final float loadFactor;
  16.     // HashMap被改变的次数,fail-fast用于快速抛出异常ConcurrentModificationException
  17. transient int modCount;
  18. static final int ALTERNATIVE_HASHING_THRESHOLD_DEFAULT = Integer.MAX_VALUE;
HashMap的重要方法解析
HashMap()

HashMap有4个构造器,其他构造器如果用户没有传入initialCapacity 和loadFactor这两个参数,会使用默认值

initialCapacity默认为16,loadFactory默认为0.75,关键的一个代码如下:

  1. public HashMap(int initialCapacity, float loadFactor) {
  2. //对传入的初始容量、加载因子进行校验,初始容量不能小于0,最大只能是1<<30(2³°)
  3. if (initialCapacity < 0)
  4. throw new IllegalArgumentException("Illegal initial capacity: " +
  5. initialCapacity);
  6. if (initialCapacity > MAXIMUM_CAPACITY)
  7. initialCapacity = MAXIMUM_CAPACITY;
  8. if (loadFactor <= 0 || Float.isNaN(loadFactor))
  9. throw new IllegalArgumentException("Illegal load factor: " +
  10. loadFactor);
  11. // Find a power of 2 >= initialCapacity
  12. // 找到一个最接近初始容量的是2的倍数的容量值
  13. int capacity = 1;
  14. while (capacity < initialCapacity)
  15. capacity <<= 1;
  16. this.loadFactor = loadFactor;
  17. //根绝容量和加载因子算扩容的阀值
  18. threshold = (int)Math.min(capacity * loadFactor, MAXIMUM_CAPACITY + 1);
  19. //初始化一个空的Entry的数组
  20. table = new Entry[capacity];
  21. //是否使用备用Hash算法,默认不开启
  22. //Holder.ALTERNATIVE_HASHING_THRESHOLD 不配置的话默认是最大值
  23. useAltHashing = sun.misc.VM.isBooted() &&
  24. (capacity >= Holder.ALTERNATIVE_HASHING_THRESHOLD);
  25. //空方法
  26. init();
  27. }
put()

初始化后,看下如何添加值的,看put()的源码,如下

  1. public V put(K key, V value) {
  2. //null值的话单独处理,null值放在数组table[0]的位置,后面会讲到
  3. if (key == null)
  4. return putForNullKey(value);
  5. //计算key的hash值,比较重要后面单独列出来
  6. int hash = hash(key);
  7. //获取在table中的实际位置
  8. int i = indexFor(hash, table.length);
  9. for (Entry e = table[i]; e != null; e = e.next) {
  10. Object k;
  11. //如果该对应数据已存在,执行覆盖操作。用新value替换旧value,并返回旧value
  12. if (e.hash == hash && ((k = e.key) == key || key.equals(k))) {
  13. V oldValue = e.value;
  14. e.value = value;
  15. e.recordAccess(this);//空的方法
  16. return oldValue;
  17. }
  18. }
  19. //保证并发访问时,若HashMap内部结构发生变化,快速响应失败
  20. modCount++;
  21. //新增一个Entry
  22. addEntry(hash, key, value, i);
  23. return null;
  24. }
putForNullKey()
  1. private V putForNullKey(V value) {
  2. //key为NULL时,默认放在table[0]的位置,或者table[0]的冲突链上,其他操作同上面put();
  3. for (Entry e = table[0]; e != null; e = e.next) {
  4. if (e.key == null) {
  5. V oldValue = e.value;
  6. e.value = value;
  7. e.recordAccess(this);
  8. return oldValue;
  9. }
  10. }
  11. modCount++;
  12. addEntry(0, null, value, 0);
  13. return null;
  14. }
hash()
  1. final int hash(Object k) {
  2. int h = 0;
  3. //如果使用备用hash算法,String类型会单独采用stringHash32,并且使用hashSeed,默认hashSeed==0
  4. if (useAltHashing) {
  5. if (k instanceof String) {
  6. return sun.misc.Hashing.stringHash32((String) k);
  7. }
  8. h = hashSeed;
  9. }
  10. //用了很多的异或,移位等运算,对key的hashcode进一步进行计算以及二进制位的调整等来保证最终获取的存储位置尽量分布均匀
  11. h ^= k.hashCode();
  12. // This function ensures that hashCodes that differ only by
  13. // constant multiples at each bit position have a bounded
  14. // number of collisions (approximately 8 at default load factor).
  15. h ^= (h >>> 20) ^ (h >>> 12);
  16. return h ^ (h >>> 7) ^ (h >>> 4);
  17. }
indexFor()
  1. //返回数组的下标,采用位运算不用取模,对于计算机位运算效率更高
  2. static int indexFor(int h, int length) {
  3. return h & (length-1);
  4. }
addEntry()
  1. void addEntry(int hash, K key, V value, int bucketIndex) {
  2. ////当size超过临界阈值threshold,并且即将发生哈希冲突时进行扩容
  3. if ((size >= threshold) && (null != table[bucketIndex])) {
  4. //扩容方法,下面会单独列出来
  5. resize(2 * table.length);
  6. //计算下标和hash值
  7. hash = (null != key) ? hash(key) : 0;
  8. bucketIndex = indexFor(hash, table.length);
  9. }
  10. //创建Entry,单独列出来
  11. createEntry(hash, key, value, bucketIndex);
  12. }
resize()

扩容方法,比较重要,可以解释为什么数组长度一定是2的次幂,代码如下:

  1. void resize(int newCapacity) {
  2. //容量最大时直接返回,阀值修改为最大值
  3. Entry[] oldTable = table;
  4. int oldCapacity = oldTable.length;
  5. if (oldCapacity == MAXIMUM_CAPACITY) {
  6. threshold = Integer.MAX_VALUE;
  7. return;
  8. }
  9. Entry[] newTable = new Entry[newCapacity];
  10. boolean oldAltHashing = useAltHashing;
  11. useAltHashing |= sun.misc.VM.isBooted() &&
  12. (newCapacity >= Holder.ALTERNATIVE_HASHING_THRESHOLD);
  13. //计算是否需要重新计算Hash值
  14. boolean rehash = oldAltHashing ^ useAltHashing;
  15. //赋值给新的数组,下面会单独列出来
  16. transfer(newTable, rehash);
  17. table = newTable;
  18. //计算新的阀值
  19. threshold = (int)Math.min(newCapacity * loadFactor, MAXIMUM_CAPACITY + 1);
  20. }
transfer()
  1. /**
  2. * Transfers all entries from current table to newTable.
  3. */
  4. void transfer(Entry[] newTable, boolean rehash) {
  5. int newCapacity = newTable.length;
  6. //for循环中的代码,逐个遍历链表,重新计算索引位置,将老数组数据复制到新数组中去
  7. for (Entry e : table) {
  8. while(null != e) {
  9. Entry next = e.next;
  10. if (rehash) {
  11. e.hash = null == e.key ? 0 : hash(e.key);
  12. }
  13. int i = indexFor(e.hash, newCapacity);
  14. //将当前entry的next链指向新的索引位置,newTable[i]有可能为空,有可能也是个entry链,如果是entry链,直接在链表头部插入。
  15. e.next = newTable[i];
  16. newTable[i] = e;
  17. e = next;
  18. }
  19. }
  20. }

这个方法将老数组中的数据逐个链表地遍历,扔到新的扩容后的数组中,我们的数组索引位置的计算是通过 对key值的hashcode进行hash扰乱运算后,再通过和 length-1进行位运算得到最终数组索引位置。

1.hashMap的数组长度一定保持2的次幂,比如16的二进制表示为 10000,那么length-1就是15,二进制为01111,同理扩容后的数组长度为32,二进制表示为100000,length-1为31,二进制表示为011111。从下图可以我们也能看到这样会保证低位全为1,而扩容后只有一位差异,也就是多出了最左位的1,这样在通过 h&(length-1)的时候,只要h对应的最左边的那一个差异位为0,就能保证得到的新的数组索引和老数组索引一致(大大减少了之前已经散列良好的老数组的数据位置重新调换)。

2.数组长度保持2的次幂,length-1的低位都为1,会使得获得的数组索引index更加均匀,比如:

我们看到,上面的&运算,高位是不会对结果产生影响的(hash函数采用各种位运算可能也是为了使得低位更加散列),我们只关注低位bit,如果低位全部为1,那么对于h低位部分来说,任何一位的变化都会对结果产生影响,也就是说,要得到index=21这个存储位置,h的低位只有这一种组合。这也是数组长度设计为必须为2的次幂的原因。

!

如果不是2的次幂,也就是低位不是全为1此时,要使得index=21,h的低位部分不再具有唯一性了,哈希冲突的几率会变的更大,同时,index对应的这个bit位无论如何不会等于1了,而对应的那些数组位置也就被白白浪费了。

createEntry()

这个方法比较简单没什么东西,就是简单创建个Entry,赋值到数组中

  1. void createEntry(int hash, K key, V value, int bucketIndex) {
  2. Entry e = table[bucketIndex];
  3. table[bucketIndex] = new Entry<>(hash, key, value, e);
  4. size++;
  5. }
get()
  1. public V get(Object key) {
  2. if (key == null)
  3. return getForNullKey();
  4. Entry entry = getEntry(key);
  5. return null == entry ? null : entry.getValue();
  6. }
  7. private V getForNullKey() {
  8. //key为NULL时,存在table[0]位置
  9. for (Entry e = table[0]; e != null; e = e.next) {
  10. if (e.key == null)
  11. return e.value;
  12. }
  13. return null;
  14. }
  15. final Entry getEntry(Object key) {
  16. int hash = (key == null) ? 0 : hash(key);
  17. for (Entry e = table[indexFor(hash, table.length)];
  18. e != null;
  19. e = e.next) {
  20. Object k;
  21. if (e.hash == hash &&
  22. ((k = e.key) == key || (key != null && key.equals(k))))
  23. return e;
  24. }
  25. return null;
  26. }

可以看出,get方法的实现相对简单,key(hashcode)-->hash-->indexFor-->最终索引位置,找到对应位置table[i],再查看是否有链表,遍历链表,通过key的equals方法比对查找对应的记录。要注意的是,有人觉得上面在定位到数组位置之后然后遍历链表的时候,e.hash == hash这个判断没必要,仅通过equals判断就可以。其实不然,试想一下,如果传入的key对象重写了equals方法却没有重写hashCode,而恰巧此对象定位到这个数组位置,如果仅仅用equals判断可能是相等的,但其hashCode和当前对象不一致,这种情况,根据Object的hashCode的约定,不能返回当前对象,而应该返回null,后面的例子会做出进一步解释。

关于HashMap的源码分析就介绍到这儿了,最后我们再聊聊老生常谈的一个问题,各种资料上都会提到,“重写equals时也要同时覆盖hashcode”,我们举个小例子来看看,如果重写了equals而不重写hashcode会发生什么样的问题

  1. public class Demo {
  2. private String name;
  3. private int idCde;
  4. public Demo(String name, int idCde) {
  5. this.name = name;
  6. this.idCde = idCde;
  7. }
  8. public String getName() {
  9. return name;
  10. }
  11. public void setName(String name) {
  12. this.name = name;
  13. }
  14. public int getIdCde() {
  15. return idCde;
  16. }
  17. public void setIdCde(int idCde) {
  18. this.idCde = idCde;
  19. }
  20. @Override
  21. public boolean equals(Object o) {
  22. if (this == o) return true;
  23. if (o == null || getClass() != o.getClass()) return false;
  24. Demo demo = (Demo) o;
  25. return idCde == demo.idCde &&
  26. Objects.equals(name, demo.name);
  27. }
  28. // @Override
  29. // public int hashCode() {
  30. //
  31. // return Objects.hash(name, idCde);
  32. // }
  33. public static void main(String[] args) {
  34. HashMap map = new HashMap();
  35. Demo demo = new Demo("张三",123456789);
  36. map.put(demo,"测试");
  37. System.out.println("结果:"+map.get(demo));
  38. System.out.println("结果:"+map.get(new Demo("张三",123456789)));
  39. }
  40. }

输出结果为:

  1. 结果:测试
  2. 结果:null

尽管我们在进行get和put操作的时候,使用的key从逻辑上讲是等值的(通过equals比较是相等的),但由于没有重写hashCode方法,所以put操作时,key(hashcode1)-->hash-->indexFor-->最终索引位置 ,而通过key取出value的时候 key(hashcode1)-->hash-->indexFor-->最终索引位置,由于hashcode1不等于hashcode2,导致没有定位到一个数组位置而返回逻辑上错误的值null(也有可能碰巧定位到一个数组位置,但是也会判断其entry的hash值是否相等,上面get方法中有提到。)

  所以,在重写equals的方法的时候,必须注意重写hashCode方法,同时还要保证通过equals判断相等的两个对象,调用hashCode方法要返回同样的整数值。而如果equals判断不相等的两个对象,其hashCode可以相同(只不过会发生哈希冲突,应尽量避免)。

一、基础篇--1.2Java集合-HashMap源码解析的更多相关文章

  1. 一、基础篇--1.2Java集合-HashMap和ConcurrentHashMap的区别【转】

    http://www.importnew.com/28263.html 今天发一篇”水文”,可能很多读者都会表示不理解,不过我想把它作为并发序列文章中不可缺少的一块来介绍.本来以为花不了多少时间的,不 ...

  2. java集合-HashMap源码解析

    HashMap 键值对集合 实现原理: HashMap 是基于数组 + 链表实现的. 通过hash值计算 数组索引,将键值对存到该数组中. 如果多个元素hash值相同,通过链表关联,再头部插入新添加的 ...

  3. 一、基础篇--1.2Java集合-HashMap死循环问题

    为什么HashMap会出现死循环 首先,我们知道java的HashMap不是线程安全的.多线程下应该使用ConcurrentHashMap. HashMap底层是基于动态数组和单向链表(JDK1.7, ...

  4. 一、基础篇--1.2Java集合-HashMap和HashSet的区别

     HashMap和HashSet的区别 1.HashMap实现的是Map接口,HashSet实现的是Set接口 2.结构不一样,一个存储的是键值对,一个存储的是对象 3.HashMap存储的值可能相同 ...

  5. 一、基础篇--1.2Java集合-HashMap和HashTable的区别

    HashMap和HashTable的区别 1.继承的父类不同,HashMap继承的是AbstractMap类,HashTable继承的是Dictionary类,不过都实现了Map.Clone.Seri ...

  6. Java中的容器(集合)之HashMap源码解析

    1.HashMap源码解析(JDK8) 基础原理: 对比上一篇<Java中的容器(集合)之ArrayList源码解析>而言,本篇只解析HashMap常用的核心方法的源码. HashMap是 ...

  7. 【转】Java HashMap 源码解析(好文章)

    ­ .fluid-width-video-wrapper { width: 100%; position: relative; padding: 0; } .fluid-width-video-wra ...

  8. HashMap源码解析 非原创

    Stack过时的类,使用Deque重新实现. HashCode和equals的关系 HashCode为hash码,用于散列数组中的存储时HashMap进行散列映射. equals方法适用于比较两个对象 ...

  9. 最全的HashMap源码解析!

    HashMap源码解析 HashMap采用键值对形式的存储结构,每个key对应唯一的value,查询和修改的速度很快,能到到O(1)的平均复杂度.他是非线程安全的,且不能保证元素的存储顺序. 他的关系 ...

随机推荐

  1. Docker 容器数据卷(Data Volume)与数据管理

    卷(Volume)是容器中的一个数据挂载点,卷可以绕过联合文件系统,从而为Docker 提供持久数据,所提供的数据还可以在宿主机-容器或多个容器之间共享.通过卷,我们可以可以使修改数据直接生效,而不必 ...

  2. 卡片拖拽(vue拖拽事件)

    <template> <div class="wrapper wrapper-content" id="main" v-cloak> & ...

  3. 《python解释器源码剖析》第9章--python虚拟机框架

    9.0 序 下面我们就来剖析python运行字节码的原理,我们知道python虚拟机是python的核心,在源代码被编译成字节码序列之后,就将有python的虚拟机接手整个工作.python虚拟机会从 ...

  4. java-面试题为什么redis这么快

    文章:为什么说Redis是单线程的以及Redis为什么这么快! 文章比较详细,有些细节可能需要注意. 1,比如CPU不是redis的瓶颈 2,随着连接数的增加,并发会降低等.

  5. SAP 选择屏幕的上方 (sscrfields) 按钮设置

    TABLES sscrfields. PARAMETERS: p_carrid TYPE s_carr_id, p_cityfr TYPE s_from_cit. , "激活按钮 . INI ...

  6. Docuemnt 的 NamespaceURI为空问题

    创建doc的方式不同,需要增加 DocumentBuilderFactory.setNamespaceAware(true); 这样Element Node.getNamespaceURI 才不为空 ...

  7. PHP类知识----面向对象在内存空间的分布情况

  8. C# 列排序

    private void button2_Click(object sender, EventArgs e) { DataTable dt = new DataTable(); dt.Columns. ...

  9. vue模板语法下集

    1. 样式绑定 1.1 class绑定 使用方式:v-bind:class="expression" expression的类型:字符串.数组.对象 1.2 style绑定 v-b ...

  10. gulp 使用指南

    只放一个链接是不是太不负责任 https://gulpjs.com/ https://blog.csdn.net/guang_s/article/details/84664769 gulp安装过程在此 ...