从HashMap透析哈希表
##扯数据结构
先看一下哈希表的概念: 哈希表是一种数据结构,它可以提供快速的插入操作和查找操作。第一次接触哈希表,他会让人难以置信,因为它的插入和删除、查找都接近O(1)的时间级别。用哈希表,很多操作都是一瞬间的事情。
哈希表也有一些缺点: 它基于数组的,数组创建后难以扩展。某些哈希表被基本填满时,性能下降的非常严重。 学习数据结构难免是枯燥的,如果有一个最佳模板供我们参考,那么学起来就会事半功倍了。题外:最佳模板就是一个强力的Demo。 我学到的数据结构,在Java中都有最佳模板来参考。比如: - 数组是Array
- 链表是LinkedList
- 队列是Queue,一般用实现类LinkedList
- 优先级队列是ProirityQueue
- 归并排序是Arrays.sort()
- 二叉树是TreeList,TreeList不在Java开发包中,在commons-collections.jar中,他用到的是AVL树 而分析哈希表,最佳模板无疑是HashMap了。 **编写Java开发包都是一群神人,拿Java源码来分析问题,我们无疑站在了巨人的肩膀上。所谓站得高,尿的远也。当然,所谓偷拍都是避免不了的。** ##开整HashMap
哈希表为解决冲突,采用了开发地址法和链地址法来解决问题。Java中HashMap采用了链地址法。
链地址法,简单来说,就是数组加链表的结合。在每个数组元素上都一个链表结构,当数据被hash后,得到数组下标,把数据放在对应下标元素的链表上。所以HashMap插入的速度特别快,读取的速度也特别快。当然为了防止数据聚集在一起,HashMap采取了一定的措施。
一张图,可以大概说明HasnMap的结构:
![HasnMap的结构](http://dl.iteye.com/upload/attachment/364590/1c28849c-b67c-3461-b48f-54bd4b023b53.jpg) 当然,我们可以深入源码来看结构,更有说服力。
我们先从HashMap的构造函数入手,进而引出他的数据结构:
###构造一
```java
public HashMap(int initialCapacity, float loadFactor) {
if (initialCapacity < 0)
throw new IllegalArgumentException("Illegal initial capacity: " +
initialCapacity);
if (initialCapacity > MAXIMUM_CAPACITY)
initialCapacity = MAXIMUM_CAPACITY;
if (loadFactor <= 0 || Float.isNaN(loadFactor))
throw new IllegalArgumentException("Illegal load factor: " +
loadFactor); // Find a power of 2 >= initialCapacity
int capacity = 1;
while (capacity < initialCapacity)
capacity <<= 1; this.loadFactor = loadFactor;
threshold = (int)(capacity * loadFactor);
table = new Entry[capacity];
init();
}
```
`capacity `是数组的初始大小
`loadFactor` 是负载因子(负载因子越大,容量扩容的边界越大)
`threshold` 是数组扩容的边界 (=capacity *loadFactor)
当我们使用这个构造的时候,会指定数组的初始大小和负载因子。而关于`threshold`的作用,后面我们在`resize(int newCapacity)`方法中会讲到。在这个构造函数中,我们看到了HashMap使用到的数据结构,就是一个Entry的数组,Entry是HashMap内部静态类,他其实就是一个链表。关于这个类,我们在讨论完构造函数后再讲。
构造一我们还需要关注这一段:
```java
int capacity = 1;
while (capacity < initialCapacity)
capacity <<= 1;
```
这段代码告诉我们,数组的大小不是我们指定的值,而是一个2的倍数。比如我们给`initialCapacity`的值为9,那么数组的大小其实为16. ###构造二
```java
public HashMap(int initialCapacity) {
this(initialCapacity, DEFAULT_LOAD_FACTOR);
}
```
`DEFAULT_LOAD_FACTOR`的大小是0.75,构造二调用了构造一。 ###构造三
```java
public HashMap() {
this.loadFactor = DEFAULT_LOAD_FACTOR;
threshold = (int)(DEFAULT_INITIAL_CAPACITY * DEFAULT_LOAD_FACTOR);
table = new Entry[DEFAULT_INITIAL_CAPACITY];
init();
}
```
构造三是默认构造函数,`DEFAULT_INITIAL_CAPACITY `的值是16。他没有调用构造一,而是直接创建了数据结构Entry。 ###构造四
```java
public HashMap(Map<? extends K, ? extends V> m) {
this(Math.max((int) (m.size() / DEFAULT_LOAD_FACTOR) + 1,
DEFAULT_INITIAL_CAPACITY), DEFAULT_LOAD_FACTOR);
putAllForCreate(m);
}
```
构造四先不急讲,看完下面的内容,我们自己就能够读懂`putAllForCreate(m);`方法了。 ##数据结构之Entry数组
前面已经讲过HashMap的结构,我们在构造函数中,也能看出端倪。那么Entry类到底是干嘛用的呢?其实他就是一个单向链表,看源码就明白了:
```java
static class Entry<K,V> implements Map.Entry<K,V> {
final K key;
V value;
Entry<K,V> next;
final int hash;
... ...
}
```
它保存了一个key,一个value,指向下一节点的next应用,和一个hash值。 ##HashMap之put方法
HashMap通过构造函数创建了一个数据模型,我们可以在这个模型中添加数据,然后操作数据,使用数据。当然,我们操作的前提是先添加,所以`put(K key, V value)`方法请看过来:
```java
public V put(K key, V value) {
if (key == null)
return putForNullKey(value);
int hash = hash(key.hashCode());
int i = indexFor(hash, table.length);
for (Entry<K,V> e = table[i]; e != null; e = e.next) {
Object k;
if (e.hash == hash && ((k = e.key) == key || key.equals(k))) {
V oldValue = e.value;
e.value = value;
e.recordAccess(this);
return oldValue;
}
} modCount++;
addEntry(hash, key, value, i);
return null;
}
```
这个方法涉及主要方法有4个,我们一一来分析。
首先,`key`为空要调用`putForNullKey(value);`方法:
```java
private V putForNullKey(V value) {
for (Entry<K,V> e = table[0]; e != null; e = e.next) {
if (e.key == null) {
V oldValue = e.value;
e.value = value;
e.recordAccess(this);
return oldValue;
}
}
modCount++;
addEntry(0, null, value, 0);
return null;
}
```
我们看到,`null`为key的值会被放在数组的第一个元素上。如果第一个元素已经存在`null`为key的值,那么进行替换。
如果第一个元素上还没有`null`为key的值,那么调用`addEntry(0, null, value, 0);`方法将`null`的key将被放在第一个元素上。
关于`addEntry(0, null, value, 0);`方法,我们需要返回到`put(K key, V value)`来继续看。 ---------- 哈希表的核心之一是哈希函数,好的哈希函数可以让数据分布的更均匀,从而使哈希表的结构达到优化。
我们看`put(K key, V value)`中是如何进行hash的,他调用了`hash(key.hashCode());`:
```java
static int hash(int h) {
// This function ensures that hashCodes that differ only by
// constant multiples at each bit position have a bounded
// number of collisions (approximately 8 at default load factor).
h ^= (h >>> 20) ^ (h >>> 12);
return h ^ (h >>> 7) ^ (h >>> 4);
}
```
首先,调用了`key.hashCode()`方法,然后对hashCode进行再次hash。为什么要再次hash呢?是为了散列,为了让0、1分布更加均匀。而关于`hashCode()`方法,我们可以参考String类:
```java
public int hashCode() {
int h = hash;
if (h == 0) {
int off = offset;
char val[] = value;
int len = count; for (int i = 0; i < len; i++) {
h = 31*h + val[off++];
}
hash = h;
}
return h;
}
```
Java以31为底进行的hash,c++中以33为底,这是前辈们总结出的最佳方案。 ----------
`put(K key, V value)`在进行二次hash之后,调用了`indexFor(hash, table.length);`:
```java
static int indexFor(int h, int length) {
return h & (length-1);
}
```
这个函数是为了获取小于数组长度的一个下标。 ----------
然后`put(K key, V value)`进行了`putForNullKey(value);`方法相似的操作,如果数组元素存在以当前key,那么替换他的value值。
如果不存在,则调用`addEntry(hash, key, value, i);`方法: ```java
void addEntry(int hash, K key, V value, int bucketIndex) {
Entry<K,V> e = table[bucketIndex];
table[bucketIndex] = new Entry<K,V>(hash, key, value, e);
if (size++ >= threshold)
resize(2 * table.length);
}
```
重头戏来了,我们来看一下这个方法。
其实他的内部实现也不复杂,就是在对应的下标元素中放入了一个节点,节点中保存了key、value、下一个节点的引用和key的hash值。
在保存元素之后,他检查了一下容器的容量,如果容量大于或等于容量边界,那么进行扩容,扩容的规模是当前容量的2倍,看`resize(2 * table.length);`方法:
```java
void resize(int newCapacity) {
Entry[] oldTable = table;
int oldCapacity = oldTable.length;
if (oldCapacity == MAXIMUM_CAPACITY) {
threshold = Integer.MAX_VALUE;
return;
} Entry[] newTable = new Entry[newCapacity];
transfer(newTable);
table = newTable;
threshold = (int)(newCapacity * loadFactor);
}
```
`resize(int newCapacity) `进行了例行判断,然后创建了一个大一倍的容器,它调用`transfer(newTable);`方法把旧容器的数据再次哈希分配到了新容器:
```java
void transfer(Entry[] newTable) {
Entry[] src = table;
int newCapacity = newTable.length;
for (int j = 0; j < src.length; j++) {
Entry<K,V> e = src[j];
if (e != null) {
src[j] = null;
do {
Entry<K,V> next = e.next;
int i = indexFor(e.hash, newCapacity);
e.next = newTable[i];
newTable[i] = e;
e = next;
} while (e != null);
}
}
}
```
`transfer(Entry[] newTable) `方法内部不复杂,只是进行了再次哈希而已,可参考`put(K key, V value)`方法。 ----------
至此,HashMap的真容尽露,我们回头看`构造四`就不困难了。
同时,我们对哈希表这种数据结构也有了相对透彻的理解。 ##HashMap之使用
首先我们要明白,HashMap不是线程安全的,如果在多线程中使用,可能出现死循环,造成CPU100%。解决方案是使用`Collections.synchronizedMap()`把Map变成线程安全的。不推荐使用HashTable。
其次,HashMap大小是固定的,他扩容的速度是自身size的两倍。如果用HashMap承载大数据,那么我们应该给与他较大的初始容器大小。例如,有50000数据,我们最好不要使用HashMap的默认构造函数了。
最后,差点忘了说了:如果使用自定义的类当Map的key的话,记得一定要在类中重写`hashCode()`方法。 > *本文使用 [Cmd](http://ghosertblog.github.io/mdeditor/ "中文在线 Markdown 编辑器") 编写* [1]: http://dl.iteye.com/upload/attachment/364590/1c28849c-b67c-3461-b48f-54bd4b023b53.jpg
从HashMap透析哈希表的更多相关文章
- HashMap/HashSet,hashCode,哈希表
hash code.equals和“==”三者的关系 1) 对象相等则hashCode一定相等: 2) hashCode相等对象未必相等. == 是比较地址是否相等,JAVA中声明变量都是引用嘛,不同 ...
- 48 容器(七)——HashMap底层:哈希表结构与哈希算法
哈希表结构 哈希表是由数组+链表组成的,首先有一个数组,数组的每一个位置都用来存储一个链表,链表的基本节点为:[hash值,key值,value值,next],当存入一个键值对时,首先调用hashco ...
- Java哈希表入门
Java哈希表(Hash Table) 最近做题经常用到哈希表来进行快速查询,遂记录Java是如何实现哈希表的.这里只简单讲一下利用Map和HashMap实现哈希表. 首先,什么是Map和HashMa ...
- 数据结构和算法(Golang实现)(26)查找算法-哈希表
哈希表:散列查找 一.线性查找 我们要通过一个键key来查找相应的值value.有一种最简单的方式,就是将键值对存放在链表里,然后遍历链表来查找是否存在key,存在则更新键对应的值,不存在则将键值对链 ...
- 哈希表原理及hashmap简单实现
哈希表也叫做散列表.在各种语言中都有hashmap的实现.其最突出的优点是查找和插入以及删除具有常数的时间复杂度 我们可以把哈希表理解为数组+链表 数组具有常数复杂度的查找,为什么呢,因为数组是在内存 ...
- Android版数据结构与算法(四):基于哈希表实现HashMap核心源码彻底分析
版权声明:本文出自汪磊的博客,未经作者允许禁止转载. 存储键值对我们首先想到HashMap,它的底层基于哈希表,采用数组存储数据,使用链表来解决哈希碰撞,它是线程不安全的,并且存储的key只能有一个为 ...
- stl vector、红黑树、set、multiset、map、multimap、迭代器失效、哈希表(hash_table)、hashset、hashmap、unordered_map、list
stl:即标准模板库,该库包含了诸多在计算机科学领域里所常用的基本数据结构和基本算法 六大组件: 容器.迭代器.算法.仿函数.空间配置器.迭代适配器 迭代器:迭代器(iterator)是一种抽象的设计 ...
- HashMap分析 + 哈希表
http://www.cnblogs.com/hzmark/archive/2012/12/24/HashMap.html http://www.cnblogs.com/xqzt/archive/20 ...
- 【Java源码】集合类-JDK1.8 哈希表-红黑树-HashMap总结
JDK 1.8 HashMap是数组+链表+红黑树实现的,在阅读HashMap的源码之前先来回顾一下大学课本数据结构中的哈希表和红黑树. 什么是哈希表? 在存储结构中,关键值key通过一种关系f和唯一 ...
随机推荐
- usb驱动开发9之设备描述符
前面分析了usb的四大描述符之端点描述符,接口描述符(每一个接口对应一个功能,与之配备相应驱动),配置描述符,最后分析设备如何包括这些描述符.首先记住,在usb的世界里,设备大于配置,配置大于接口,接 ...
- 设置Eclipse中的tab键为4个空格的完整方法
1.点击 window->preference-,依次选择 General->Editors->Text Editors,选中右侧的 insert space for tabs;如下 ...
- C++ 排序函数 sort(),qsort()的用法
转自:http://blog.csdn.net/zzzmmmkkk/article/details/4266888/ 所以自己总结了一下,首先看sort函数见下表: 函数名 功能描述 sort 对给定 ...
- 怎么写针对IE9的CSS
(自己亲自试过有用)针对IE9的CSS只需在相应CSS代码加入只有IE9识别的 \9\0.具体代码如下: .div{ background-color:#0f0\9\0;/* ie9 */ } 其他浏 ...
- 使用IDEA进行代码托管
在idea菜单栏的file中打开settings/搜索git,配置path to Git executable:C:\Program Files\Git\bin\git.exe(git bash的安装 ...
- 配置sonar、jenkins进行持续审查
本文以CentOS操作系统为例介绍Sonar的安装配置,以及如何与Jenkins进行集成,通过pmd-cpd.checkstyle.findbugs等工具对代码进行持续审查. 一.安装配置sonar ...
- 如何优雅的写一篇安利文-以Sugar ORM为例
前言 我最近喜欢把写的十分优美的技术文章叫做安利文.首先,文章必须是原创而非软广:其次,阅读之后不仅能快速吸纳技术要点并入门开发,还能感同身受的体会作者热情洋溢的赞美和急于分享心得体验的心情,让人感觉 ...
- PHP PC端接入支付宝和微信感悟
想着中秋节的时候把异步线程学习完,同事说有个PHP的支付要帮忙做一下,虽然中秋节计划是把C#的异步学完,不过还是喜欢挑战,好久没有像大学一样这么认真的熬夜解决问题了.由于在大学学过asp,它和php有 ...
- Mac无法找到摄像头问题解决
facetime显示“未检测到摄像头”之类的,重启后可能摄像头有工作正常了,摄像头不稳定 重置 NVRAM后恢复正常,据说机器卡的时候,此法也可以使用. https://support.apple.c ...
- 【BZOJ 1019】【SHOI2008】汉诺塔(待定系数法递推)
1019: [SHOI2008]汉诺塔 Time Limit: 1 Sec Memory Limit: 162 MBSubmit: 559 Solved: 341[Submit][Status] ...