Java入门系列之集合Hashtable源码分析（十一）

前言

上一节我们实现了散列算法并对冲突解决我们使用了开放地址法和链地址法两种方式，本节我们来详细分析源码，看看源码中对于冲突是使用的哪一种方式以及对比我们所实现的，有哪些可以进行改造的地方。

Hashtable源码分析

我们通过在控制台中实例化Hashtable并添加键值对实例代码来分析背后究竟做了哪些操作，如下：

 public static void main(String[] args) {

        Hashtable hashtable = new Hashtable();

        hashtable.put(-100, "first");

 }

接下来我们来看看在我们初始化Hashtable时，背后做了哪些准备工作呢？

public class Hashtable<K,V>

    extends Dictionary<K,V>

    implements Map<K,V>, Cloneable, java.io.Serializable {

    //存储键值对数据

    private transient Entry<?,?>[] table;

    //存储数据大小

    private transient int count;

    //阈值：(int)(capacity * loadFactor).)

    private int threshold;

    //负载因子: 从时间和空间成本折衷考虑默认为0.75。因为较高的值虽然会减少空间开销，但是增加查找元素的时间成本

    private float loadFactor;

    //指定容量和负载因子构造函数

    public Hashtable(int initialCapacity, float loadFactor) {

        if (initialCapacity < 0)

            throw new IllegalArgumentException("Illegal Capacity: "+

                                               initialCapacity);

        if (loadFactor <= 0 || Float.isNaN(loadFactor))

            throw new IllegalArgumentException("Illegal Load: "+loadFactor);

        if (initialCapacity==0)

            initialCapacity = 1;

        this.loadFactor = loadFactor;

        table = new Entry<?,?>[initialCapacity];

        //默认阈值为8

        threshold = (int)Math.min(initialCapacity * loadFactor, MAX_ARRAY_SIZE + 1);

    }

   //指定容量构造函数

    public Hashtable(int initialCapacity) {

        this(initialCapacity, 0.75f);

    }

    //默认无参构造函数（初始化容量为11，负载因子为0.75f)

    public Hashtable() {

        this(11, 0.75f);

    }

    private static class Entry<K,V> implements Map.Entry<K,V> {

        final int hash;

        final K key;

        V value;

        Entry<K,V> next;

        protected Entry(int hash, K key, V value, Entry<K,V> next) {

            this.hash = hash;

            this.key =  key;

            this.value = value;

            this.next = next;

        }

    }

}

Hashtable内部通过Entry数组存储数据，通过Entry结构可看出采用链地址法解决哈希冲突，当初始化Hashtable未指定容量和负载因子时，默认初始化容量为11，负载因子为0.75，阈值为8，若容量小于0则抛出异常，若容量等于0则容量为1且阈值为0，否则阈值以指定容量*0.75计算或者以指定容量*指定负载因子计算为准。

通过如上源代码和变量定义我们很快能够得出如上结论，这点就不必我们再进行过多讨论，接下来我们再来看看当我们如上添加如上键值对数据时，内部是如何做的呢？

public synchronized V put(K key, V value) {

        if (value == null) {

            throw new NullPointerException();

        }

        Entry<?,?> tab[] = table;

        int hash = key.hashCode();

        int index = (hash & 0x7FFFFFFF) % tab.length;

        Entry<K,V> entry = (Entry<K,V>)tab[index];

        for(; entry != null ; entry = entry.next) {

            if ((entry.hash == hash) && entry.key.equals(key)) {

                V old = entry.value;

                entry.value = value;

                return old;

            }

        }

        addEntry(hash, key, value, index);

        return null;

    }

我们一步步来分析，首先若添加的值为空则抛出异常，紧接着获取添加键的哈希值，重点来了，如下代码片段的作用是什么呢？

 int index = (hash & 0x7FFFFFFF) % tab.length;

因为数组索引不可能为负值，所以这里通过逻辑与操作将键的哈希值转换为正值，也就是本质上是为了保证索引为正值，那么 int index = (hash & 0x7FFFFFFF) % tab.length; 是如何计算的呢？0x7FFFFFFF的二进制就是1111111111111111111111111111111，由于是正数所以符号为0即01111111111111111111111111111111，而对于我们添加的值为-100，则二进制为11111111111111111111111110011100，将二者转换为二进制进行逻辑加操作，最终结果为01111111111111111111111110011100，转换为十进制结果为2147483548，这是我们讲解的原理计算方式，实际上我们通过十进制相减即可，上述0x7FFFFFFF的十进制为2147483647，此时我们直接在此基础上减去（100-1）即99，最终得到的也是2147483548。最后取初始容量11的模结果则索引为为1。如果是键的哈希值为正值那就不存在这个问题，也就是说通过逻辑与操作得到的哈希值就是原值。接下来获取对应索引在数组中的位置，然后进行循环，问题来了为何要循环数组呢？也就是如下代码片段：

       for(; entry != null ; entry = entry.next) {

            if ((entry.hash == hash) && entry.key.equals(key)) {

                V old = entry.value;

                entry.value = value;

                return old;

            }

        }

上述是为了解决相同键值将对应的值进行覆盖，还是不能理解？我们在控制台再加上一行如下代码：

public static void main(String[] args) {

        Hashtable hashtable = new Hashtable();

        hashtable.put(-100, "first");

        hashtable.put(-100, "second");

}

如上我们添加的键都为-100，通过我们对上述循环源码的分析，此时将如上第一行的值first替换为second，换言之当我们添加相同键时，此时会发生后者的值覆盖前者值的情况，同时我们也可以通过返回值得知，若返回值为空说明没有出现覆盖的情况，否则有返回值，说明存在相同的键且返回被覆盖的值。我们通过如下打印出来Hashtable中数据可得出，这点和C#操作Hashtable不同，若存在相同的键则直接抛出异常。

        Enumeration keys = hashtable.keys();

        while (keys.hasMoreElements()) {

            Object key =  keys.nextElement();

            String values = (String) hashtable.get(key);

            System.out.println(key + "------>" + values);

        }

还没完，我们继续往下分析如下代码，将键值对添加到数组中去：

private void addEntry(int hash, K key, V value, int index) {

        modCount++;

        //定义存储数据变量

        Entry<?,?> tab[] = table;

        //若数组中元素超过或等于阈值则扩容数组

        if (count >= threshold) {

            rehash();

            tab = table;

            hash = key.hashCode();

            index = (hash & 0x7FFFFFFF) % tab.length;

        }

        //将键值对以及哈希值添加到存储数组中

        Entry<K,V> e = (Entry<K,V>) tab[index];

        tab[index] = new Entry<>(hash, key, value, e);

        count++;

}

在添加数据到存储的数组中去时必然要判断是否已经超过阈值，说到底就是为了扩容哈希表，接下来我们看看具体实现是怎样的呢？

protected void rehash() {

        //获取存储数组当前容量

        int oldCapacity = table.length;

        Entry<?,?>[] oldMap = table;

        // 新容量 = 当前容量*2 + 1

        int newCapacity = (oldCapacity << 1) + 1;

        //判断是否新容量是否超过最大数组大小，超过那么最大容量为定义的最大数组大小

        if (newCapacity - MAX_ARRAY_SIZE > 0) {

            if (oldCapacity == MAX_ARRAY_SIZE)

                return;

            newCapacity = MAX_ARRAY_SIZE;

        }

        Entry<?,?>[] newMap = new Entry<?,?>[newCapacity];

        modCount++;

        //重新计算阈值

        threshold = (int)Math.min(newCapacity * loadFactor, MAX_ARRAY_SIZE + 1);

        //扩容后的存储数组

        table = newMap;

        //循环将当前存储的数组数据更新到扩容后的存储数组里

        for (int i = oldCapacity ; i-- > 0 ;) {

            for (Entry<K,V> old = (Entry<K,V>)oldMap[i] ; old != null ; ) {

                Entry<K,V> e = old;

                old = old.next;

                int index = (e.hash & 0x7FFFFFFF) % newCapacity;

                e.next = (Entry<K,V>)newMap[index];

                newMap[index] = e;

            }

        }

}

如上解释已经非常清晰明了，接下来我们再在控制台添加如下代码：

public static void main(String[] args) {

        Hashtable hashtable = new Hashtable();

        hashtable.put(-100, "first");

        hashtable.put(-100, "second");

        hashtable.put("Aa", "third");

        hashtable.put("BB", "fourth");

        Enumeration keys = hashtable.keys();

        while (keys.hasMoreElements()) {

            Object key =  keys.nextElement();

            String values = (String) hashtable.get(key);

            System.out.println(key + "------>" + values);

        }

}

当我们添加如上两行代码，此时我们想想打印出的结果数据将是怎样的呢？如下：

咦，好像发现一点问题，上述我们明明首先添加的键为Aa，难道首先打印出来的不应该是Aa吗？怎么是键BB呢？不仅让我们心生疑窦，主要是因为键Aa和键BB计算出来的哈希值一样导致，不信，我们可打印出二者对应的哈希值均为2112，如下：

 System.out.println("Aa".hashCode());

 System.out.println("BB".hashCode());

接下来我们再来看看最终存放到数组里面去时，具体是怎么操作的呢？我们摘抄上述代码片段，如下：

  Entry<K,V> e = (Entry<K,V>) tab[index];

  tab[index] = new Entry<>(hash, key, value, e);

问题就出在这个地方，在上一节我们讲解散列算法为解决冲突使用链地址法时，我们是将键计算出来的相同哈希值添加到单链表的尾部，在这里刚好相反，这里采取的是将后续添加的放到单链表头部，而已添加的则放到下一个引用。因为上述首先将已添加的键Aa对应的索引取出来，然后重新实例化存储键BB的数据时，它的下一个即(next)指向的是Aa，所以才有了上述打印结果，这里需要我们注意下。那么为何要这么做呢？对比上一节我们的实现，主要是数据结构定义不同，上一节我们采用循环遍历方式，但是在源码中采用构造函数中赋值下一引用的方式，当然源码的方式是性能最佳，因为免去了循环遍历。好了，接下来我们再来看看删除方法，我们在控制台继续添加如下代码：

hashtable.remove("Aa");

我们同时也对应看看源码中删除是如何操作的，源码如下：

public synchronized V remove(Object key) {

    //定义存储数组变量

    Entry<?,?> tab[] = table;

    //计算键哈希值

    int hash = key.hashCode();

    //获取键索引

    int index = (hash & 0x7FFFFFFF) % tab.length;

    //获取键索引存储数据

    Entry<K,V> e = (Entry<K,V>)tab[index];

    for(Entry<K,V> prev = null ; e != null ; prev = e, e = e.next) {

        //若删除数据在单链表头部则进入该语句，否则继续下一循环

        if ((e.hash == hash) && e.key.equals(key)) {

            modCount++;

            //若删除数据不在单链表头部则进入该语句

            if (prev != null) {

                prev.next = e.next;

            } else {

                //若删除数据在存储数组索引头部则进入该语句

                tab[index] = e.next;

            }

            //数组大小减1

            count--;

            //返回删除值

            V oldValue = e.value;

            //要删除值置为空

            e.value = null;

            return oldValue;

        }

    }

    return null;

}

通过上述对删除操作的分析，此时我们删除键Aa，此时单链表头部键为BB，所以会进行下一循环，最后进入上述第二个if语句，若是删除键BB，因为此时就存在单链表头部，所以prev为空，进入else语句进行元素删除操作。关于Hashtable源码的分析到此结束，至于其他比如获取键对应值或者键是否包含在存储数组中比较简单，这里就不再阐述。

总结

本节我们详细分析了Hashtable源码，Hashtable采用链地址法解决哈希冲突，同时当发生冲突时，将冲突数据存储在单链表头部，而已有数据作为头部下一引用，Hashtable不允许插入任何空的键和值，方法通过关键字synchronized修饰得知Hashtable是线程安全的，同时默认初始化容量为11，负载因子为0.75f，负载因子定为0.75f的原因在于：若冲突或碰撞产生非常频繁会减缓使用元素的操作，因为此时仅仅只知道索引是不够的的，此时需要遍历链表才能找到存储的元素，因此，减少碰撞次数非常重要，数组越大，碰撞的机会就越小，负载因子决定了阵列大小和性能之间平衡，这意味着当75％的存储桶变为空时，数组大小会扩容，此操作由rehash()方法来执行。下一节我们进一步学习hashCode、equals以及hashCode计算原理，然后分析HashMap源码，感谢您的阅读，下节见。

Java入门系列之集合Hashtable源码分析（十一）的更多相关文章

Java入门系列之集合LinkedList源码分析（九）
前言上一节我们手写实现了单链表和双链表,本节我们来看看源码是如何实现的并且对比手动实现有哪些可优化的地方. LinkedList源码分析通过上一节我们对双链表原理的讲解,同时我们对照如下图也可知道 ...
Java入门系列之集合HashMap源码分析（十四）
前言我们知道在Java 8中对于HashMap引入了红黑树从而提高操作性能,由于在上一节我们已经通过图解方式分析了红黑树原理,所以在接下来我们将更多精力投入到解析原理而不是算法本身,HashMap在 ...
Java入门系列之集合ArrayList源码分析（七）
前言上一节我们通过排队类实现了类似ArrayList基本功能,当然还有很多欠缺考虑,只是为了我们学习集合而准备来着,本节我们来看看ArrayList源码中对于常用操作方法是如何进行的,请往下看. A ...
并发-HashMap和HashTable源码分析
HashMap和HashTable源码分析参考: https://blog.csdn.net/luanlouis/article/details/41576373 http://www.cnblog ...
史上最简单的的HashTable源码分析
HashTable源码分析 1.前言 Hashtable 一个元老级的集合类,早在 JDK 1.0 就诞生了 1.1.摘要在集合系列的第一章,咱们了解到,Map 的实现类有 HashMap.Link ...
一步步实现windows版ijkplayer系列文章之六——SDL2源码分析之OpenGL ES在windows上的渲染过程
一步步实现windows版ijkplayer系列文章之一--Windows10平台编译ffmpeg 4.0.2,生成ffplay 一步步实现windows版ijkplayer系列文章之二--Ijkpl ...
JAVA的HashTable源码分析
Hashtable简介 Hashtable同样是基于哈希表实现的,同样每个元素是一个key-value对,其内部也是通过单链表解决冲突问题,容量不足(超过了阀值)时,同样会自动增长.Hashtable ...
MySql轻松入门系列————第一站从源码角度轻松认识mysql整体框架图
一:背景 1. 讲故事最近看各大技术社区,不管是知乎,掘金,博客园,csdn基本上看不到有小伙伴分享sqlserver类的文章,看样子这些年sqlserver没落了,已经后继无人了,再写sqlser ...
JAVA ArrayList集合底层源码分析
目录 ArrayList集合一.ArrayList的注意事项二. ArrayList 的底层操作机制源码分析(重点,难点.) 1.JDK8.0 2.JDK11.0 ArrayList集合一.Ar ...

随机推荐

re常用模块
re模块:从字符串里面找到特定的字符串 re的基本语法(匹配规则) import re s = '王大炮打炮被大炮打死了王大炮打炮被大炮打死了' ^:开头 print(re.findall('^王大 ...
《Java练习题》Java编程题合集（全）
前言:不仅仅要实现,更要提升性能,精益求精,用尽量少的时间复杂度和空间复杂度解决问题. 初学者: <Java练习题>习题集一 https://www.cnblogs.com/jssj/ ...
[转]JVM参数使用手册
内存分配相关 Xms 英文释义:Initial heap size(in bytes) 中文释义:堆区初始值使用方法:-Xms2g 或 -XX:InitialHeapSize=2048m Xmx 英 ...
uni-app实现图片和视频上传功能
使用uni-app实现点击上传,既可以上传视频,有可以上传图片,图片预览,删除图片和视频功能,最终效果如下.uni-app里面没有提供同时上传视频和图片这个插件,只能靠自己手写, 1.页面布局通过 ...
前端小白webpack学习（三）
不写不知道,一写发现自己真是罗里吧嗦,尽量改进之前写了webpack的主要概念和一些使用,今天再记一下webpack的plugins和loaders的使用 7.webpack plugins使用例 ...
Linux’s init system & systemd
一.init system 1.计算机是如何启动的以早期 Fedora 系统为例. 1.开机 2.BIOS 和 GRUB(引导加载程序) 3.Linux 内核启动后,init 进程是在 Fedor ...
javascript 获取function的所在文件，并读取代码文件
1.通过func.toString()可以获取function代码 2.要获取所在文件,需要错误调用func,根据堆栈可以获取堆栈信息类似: at module.exports.data (d:\P ...
C# 使用 csc.exe 实现命令行生成
概述 CSC是什么呢?CSC就是 C-Sharp Compiler (中文就是C#编译器),作用是把我们的 cs 源文件变异成dll 或者是exe , 一般安装完VS 后,就会有这个文件: 这里 ...
ES6-promise对象的使用
Promise 的含义(摘自阮一峰ES6ru) Promise 是异步编程的一种解决方案,比传统的解决方案——回调函数和事件——更合理和更强大.它由社区最早提出和实现,ES6 将其写进了语言标准,统一 ...
利用zabbix API 统计一段时间内监控项的均值和峰值
#coding:utf-8 #给定主机IP获取一段时间内cpu的均值和峰值并写入文件(txt,可以跑完后直接把后缀名改为csv以表格形式打开):需要指定IP文件 import requests imp ...

Java入门系列之集合Hashtable源码分析（十一）

前言

Hashtable源码分析

总结

Java入门系列之集合Hashtable源码分析（十一）的更多相关文章

随机推荐

热门专题