[MIT6.006] 8. Hashing with Chaining 散列表

一、字典

在之前课里，如果我们要实现插入，删除和查找，使用树结构，最好的时间复杂度是AVL下的Ο(log₂n)，使用线性结构，最好的复杂度为基数排序Ο(n)。但如果使用字典数据类型去做，时间复杂度可为Ο(1)。下面是对字典和Python中字典的相关内容：

字典本质上就是一个直接可接入的表，每个键内可存放一个数列的items。但因此也有坏处：

键不一定为非负整数；
消耗大量内存空间。

为了解决这两个问题，散列表被提出来了。

二、散列表

首先我们看下散列表是怎么解决字典第一个问题：键不一定为非负整数。

散列表使用prehash的方法将键变为非负整数，在Python里，hash(x)就是prehash，但需要注意的是有时候，x ≠ y，也有可能会有hash(x) = hash(y)。

关于字典第二问题：消耗大量内存空间，散列表通过hashing方法解决：

hashing方法可以将全部u个keys，减少为可接受的数量大小m。简单来说就是形成一个散列表，通过散列函数hash(x)，将原来键空间内的键放入散列表中进行存放。因为散列函数本身会有冲突collision（即x ≠ y，但hash(x) = hash(y) ），所以散列表下某个键里可能有多个来自键空间内的items。而为了处理这种情况，拉链法Chaining出现了，它是将散列表每个槽内中的冲突元素进行链接，可视化如下：

如果该散列表是简单平均式散列（即每个键被平均(uniformally)地hash到表内的槽里，并且各键hashing是独立的(independently)），并假设有n个keys和m个槽，那么散列表里链长度为n / m = α = load factor。而运行时间为Ο(1 + |chain|) = Ο(1 + α)，其中1指计算hash的时间，|chain|是指形成chain的时间等于它的长度。

三、散列函数

该课只讲了三种散列函数：Divison Method，Multiplication Method和Universal Hashing。最后一种比前两种能更好地避免冲突。

（1）Divison Method

h(k) = k mod m (mod为求余)

（2）Multiplication Method

h(k) = [(a * k) mod 2^w] >> (w - r) (k为w bits，m=2^r， ‘>>’为shift right操作)

最后结果为阴影部分。

（3）Universal Hashing

h(k) = [(a * k + b) mod p] mod m (a和b为从{0,...,p-1}中抽取的随机数，p为大于|u|的质数，质数是只能被1和自身整除的数，u为key space的大小)

对于最差情况k1 ≠ k2下， P{h(k1) = h(k2)} = 1 / m，其小于简单平均式散列下的n / m。

[MIT6.006] 8. Hashing with Chaining 散列表的更多相关文章

[MIT6.006] 9. Table Doubling, Karp-Rabin 双散列表， Karp-Rabin
在整理课程笔记前,先普及下课上没细讲的东西,就是下图,如果有个操作g(x),它最糟糕的时间复杂度为Ο(c2 * n),它最好时间复杂度是Ω(c1 * n),那么θ则为Θ(n).简单来说:如果O和Ω可以 ...
[MIT6.006] 10. Open Addressing, Cryptographic Hashing 开放定址，加密哈希
前几节课讲散列表的时候,我们需要用Chaining,链接法需要用到指针pointer,但有一种方法可以不要Chaining和指针,还能在发生冲突时,为产生冲突的关键字寻找下一个"空" ...
PAT-1078 Hashing （散列表二次探测法）
1078. Hashing The task of this problem is simple: insert a sequence of distinct positive integers in ...
散列表（Hash table，也叫哈希表）
散列表是根据关键字(Key value)而直接访问在内存存储位置的数据结构.也就是说,它通过把键值通过一个函数的计算,映射到表中一个位置来访问记录,这加快了查找速度.这个映射函数称做散列函数,存放记录 ...
Python数据结构——散列表
散列表的实现常常叫做散列(hashing).散列仅支持INSERT,SEARCH和DELETE操作,都是在常数平均时间执行的.需要元素间任何排序信息的操作将不会得到有效的支持. 散列表是普通数组概念的 ...
Java数据结构与算法解析(十二)——散列表
散列表概述散列表就是一种以键-值(key-indexed) 存储数据的结构,我们只要输入待查找的值即key,即可查找到其对应的值. 散列表的思路很简单,如果所有的键都是整数,那么就可以使用一个简单 ...
散列表(hash table)——算法导论(13)
1. 引言许多应用都需要动态集合结构,它至少需要支持Insert,search和delete字典操作.散列表(hash table)是实现字典操作的一种有效的数据结构. 2. 直接寻址表在介绍散列 ...
[转载] 散列表(Hash Table)从理论到实用（上）
转载自:白话算法(6) 散列表(Hash Table)从理论到实用(上) 处理实际问题的一般数学方法是,首先提炼出问题的本质元素,然后把它看作一个比现实无限宽广的可能性系统,这个系统中的实质关系可以通 ...
[转载] 散列表(Hash Table)从理论到实用（中）
转载自:白话算法(6) 散列表(Hash Table)从理论到实用(中) 不用链接法,还有别的方法能处理碰撞吗?扪心自问,我不敢问这个问题.链接法如此的自然.直接,以至于我不敢相信还有别的(甚至是更好 ...

随机推荐

Apache Hudi与Apache Flink集成
感谢王祥虎@wangxianghu 投稿 Apache Hudi是由Uber开发并开源的数据湖框架,它于2019年1月进入Apache孵化器孵化,次年5月份顺利毕业晋升为Apache顶级项目.是当前最 ...
volatile型变量语义讲解一：对所有线程的可见性
volatile型变量语义讲解一 :对所有线程的可见性一.volatile变量语义一的概念当一个变量被定义成volatile之后,具备两个特性: 特性一:保证此变量对所有线程的可见性.这里的&qu ...
BigInteger和BigDecimal
BigInteger BigInteger的作用是对整数做计算,一般的使用String类型初始化BigInteger,它除了封装了基本的加减乘除运算外还提供了signum(),abs()等函数,使用方 ...
RDS 事务型数据库sql
-- 替换json中数据 select SUBSTRING_INDEX(SUBSTRING_INDEX('[{"channelCode":"MOBIL",&qu ...
【应用服务 App Service】Azure 应用服务测试网络访问其他域名及请求超时限制（4分钟 ≈ 230秒）
测试App Service是否可以访问其他DNS 当应用服务(Azure App Service)创建完成后,想通过ping命令来查看是否可以访问其他站点或解析DNS,但是发现ping命令无法使用.这 ...
Linux命令行history
概述当执行命令后,系统默认会在内存记录执行过的命令当用户正常退出时,会将内存的命令历史存放对应历史文件中,默认是~/.bash_history 登录shell时,会读取命令历史文件中记录下的命令加 ...
centos 7安装搜狗输入法之失败案例
最近打算在旧电脑上安装centos用,先用虚拟机做个测试默认的intelligence pinyin不太好用,打算安装搜狗输入法.在网上找了几篇看起来还"不错"的, 基本上来第一 ...
java的回收机制
在java语言中,判断一块内存空间是否符合垃圾收集器收集标准的标准只有两个: 1.给对象赋值为null,以下没有调用过. 2.给对象赋了新的值,重新分配了内存空间.
一款强大的双色球走势图，助你500W梦想，js+mvc+html
序言估计每个人都有中500W的梦想,我关注双色球也有一定年数了,可最多中也只有10块钱,这已经算是最大的奖,最近闲来无事,研究下怎么去开发双色球的走势图,觉得还是蛮有意思的,用MVC+JS+HTMl ...
pxe装机部署
批量全自动安装操作系统 dhcp:自动分配IP tftp:微系统安装系统 httpd:网络源检查环境(永久性关闭selinux) setenforce 0 sed -i s/=enforcing/= ...

[MIT6.006] 8. Hashing with Chaining 散列表

[MIT6.006] 8. Hashing with Chaining 散列表的更多相关文章

随机推荐

热门专题