哈希表(散列表),Hash表漫谈
1、序
该篇分别讲了散列表的引出、散列函数的设计、处理冲突的方法。并给出一段简单的示例代码。
2、散列表的引出
给定一个关键字集合U={0,1......m-1},总共有不大于m个元素。如果m不是很大,我们可以定义一个数组T[0...(m-1)],把U映射到数组T上,每个位置对应U中的一个关键字,若U中没有关键字为k的元素,则T[k]=NULL。我们称T为直接寻址表,不管是插入、删除、查找,只需o(1)的时间。但是注意前提,当”m不是很大的时候“。显然这个前提限制性很大,m很大时,必然会浪费很多空间,那该怎么办呢?于是就有了散列表:给定n个元素、m个存放位置(也称槽位),通过散列函数把关键字和存储位置关联起来,使每一个关键字与结构中一个唯一的存储位置相对应。于是在查找时,根据散列函数查找关键字的位置,不需要比较就可以取得要查找的记录。散列表也称哈希表。
3、散列函数
散列函数有很多,好的散列函数特点是:(近似的)满足简单一致散列,即对于关键字集合U中的任何一个关键字,经散列函数映射到地址集合中任何一个地址的概率是相等的,此时可以称为均匀散列函数,也就是说使关键字经过散列函数得到一个“随机的地址”,以便使一组关键字的散列地址均匀分布在整个地址区间,减少冲突。很多时候我们将关键字解释为自然数。下面给出几种常用的散列函数。
(1) 除法散列法
散列函数:h(key)=key%p,其中p的取值很重要,这个函数得出的散列地址值不会超过p,同时可以选作p的值常常是与2的整数幂不太接近的质数。当存放位置m较大时,p不宜过小。
(2)乘法散列法
散列函数h(key)=[p*(key*A-(int)key*A)].其中0<A<1.(key*A-(int)key*A)是取key*A得小数部分,最后再乘上常数p,最后的值向下取整。一般p选择2的某个幂次,对p的选择并没有什么特别的要求。
(3)全域散列
在执行开始时,从一族仔细设计的函数中,随机地选择一个作为散列函数。这里的随机选择针对的是一次对散列表的应用,而不是一次简单的插入或查找操作。散列函数的确定性,是查找操作正确执行的保证。全域散列法确保,当key1 != key2时,两者发生碰撞的概率不大于1/m。设计一个全域散列函数类的方法如下,该方法中,散列表大小m的大小是任意的。
全域散列函数类类设计方法:选择一个足够大的质数p,使得每一个可能的关键字都落在0到p-1的范围内。设Zp表示集合{0, 1, …, p-1},Zp*表示集合{1, 2, …, p-1}。对于任何a∈Zp*和任何b∈Zp,定义散列函数ha,b (k)= ((ak+b) mod p) mod
m所有这样的散列函数构成的函数族为:Hp,m = {ha,b : a∈Zp*和b∈Zp}由于对a来说有p-1种选择,对于b来说有p种选择,因而,Hp,m中共有p(p-1)个散列函数。在一次散列表应用中,a、b是随机生成的在一定范围的数。举个例子:若p=17,m=6,此次散列应用中随机生成a=3,b=4.则h3,4(8)=5.
4、处理冲突的方法
当h(key1)==h(key2)时,两个不同的关键字对应得哈希地址相同,于是就产生了冲突,好的哈希函数只能避免冲突,不能完全消除冲突。那么该怎么样处理冲突呢?下面给出几种常用的方法。
(1)开放寻址法
在开发寻址法法中,所有的元素都存放在散列表里。插入一个元素时,可以连续地检查散列表的各项,直到找到一个空槽来放置待插入的关键字为止。对开发地址法来说,要求对每一个关键字k,探查序列必须是(0,1...m-1)的一个排列,即能够探测所有的槽。
H=(H(key)+d) mod m 其中m表示哈希表长度,d为增量序列,H(key)为哈希函数
线性探测再散列:当上式中d取值依次为1,2,3...m-1时,称为线性探测再散列。这种方法中,初始探查的位置确定了整个探测序列,比如第一个探测位置T[1],那么下一个位置是T[2],然后T[3]....故只有m种不同的探测序列。随着时间推移,连续被占用的槽不断增多,平均查找时间随之增加。这种现象称为集群现象。
二次探测再散列:d=1^2,(-1)^2,2^2,(-2)^2......这时就是二次探测再散列,初始探查的位置确定了整个探测序列,故只有m种不同的探测序列。但出现集群现象的概率降低了很多。
伪随机探测再散列:d=伪随机数序列。
双重散列:使用的函数:h(k,i) = (h1(k) + i h2(k)) mod m, i=0, 1, …, m-1
为能查找整个散列表,值h2(k)要与表的大小m互质。确保这一条件成立的一种方法是取m为2的幂,并设计一个总能产生奇数的h2。另一种方法是取m为质数,并设计一个总是产生较m小的正整数的h2。例如,可以取m为质数,h1(k)=k mod m , h2(k)=1+(k mod m’),m’=m-1。
(2)链地址法
把散列到同一个槽中的所有元素都放在一个链表中。相对于开放地址法,可能会增加存储空间。
(3)建立一个公共溢出区
若发生冲突,把key存入公共溢出区。
5、完全散列
如果某一种散列技术在进行查找时,其最坏情况内存访问次数为O(1)的话(没有冲突产生),则称其为完全散列(perfect hashing)。通常利用一种两级的散列方案,每一级上都采用全域散列,用一个二次散列表Sj存储所有散列到槽j中的关键字,就像是把链接法中的链表改成一个散列表。为了确保在第二级上不出现碰撞,需要让第二级散列表Sj的大小mj为散列到槽j中的关键字数nj的平方。如果利用从某一全域散列函数类中随机选出的散列函数h,来将n个关键字存储到一个大小为m=n的散列表中,并将每个二次散列表的大小置为mj=nj2 (j=0,
1, …, m-1),则在一个完全散列方案中,存储所有二次散列表所需的存储总量的期望值小于2n。
6、散列表性能分析
装填因子a=表中填入的记录数/散列表的长度。a标志着散列表的装满程度。散列表查找成功和不成功的平均查找长度分析很复杂,其中链接法处理冲突插入和删除时间为o(1),操作也很方便,适合经常有记录删除的哈希表。链接法对哈希函数的依赖很大,如果哈希函数不好,可能会浪费很多空间。而开放地址法的删除记录时可以把删除的位置赋一个特殊值以标识这个记录被删除了。这样就不会影响其他记录插入和查找。
7、附录
参考书籍:《算法导论》 《数据结构》
哈希表的应用实例:
- /*
- * 题目:给定一个全部由字符串组成的字典,字符串全部由大写字母构成。其中为每个字符串编写密码,编写的
- * 方式是对于 n 位字符串,给定一个 n 位数,大写字母与数字的对应方式按照电话键盘的方式:
- * 2: A,B,C 5: J,K,L 8: T,U,V
- * 3: D,E,F 6: M,N,O 9: W,X,Y,Z
- * 4: G,H,I 7: P,Q,R,S
- * 题目给出一个1--12位的数,找出在字典中出现且密码是这个数的所有字符串。字典中字符串的个数不超过5000。
- *
- * 思路:1.回溯法找出所有可能的字符串
- * 2.在字典中查找此字符串是否存在。(字典存储采用哈希表存储)
- *
- */
- #include<stdio.h>
- #include<stdlib.h>
- #include<string.h>
- #define HASHTABLE_LENGTH 5001 //哈希表长度
- #define STRING_LENGTH 13 //单词最大长度
- //字符串
- typedef struct
- {
- char str[STRING_LENGTH];
- int length;
- }HString;
- HString string={'\0',0}; //暂存可能的字符串
- HString hashTable[HASHTABLE_LENGTH]; //哈希表
- //hash函数,构造哈希表
- void createHashTable(char *str)
- {
- int i,key,step=1;
- i=key=0;
- while(str[i]){
- key+=str[i++]-'A';
- }
- key%=HASHTABLE_LENGTH;
- while(1){
- if(hashTable[key].length==0){
- hashTable[key].length=strlen(str);
- strcpy(hashTable[key].str,str);
- break;
- }
- key=(key+step+HASHTABLE_LENGTH)%HASHTABLE_LENGTH;
- //处理冲突,线性探测再散列
- if(step>0)
- step=-step;
- else{
- step=-step;
- step++;
- }
- }
- }
- //从文件中读字典
- void readString()
- {
- int i;
- char str[STRING_LENGTH];
- char ch;
- FILE *fp;
- if((fp=fopen("document/dictionary.txt","r"))==NULL){
- printf("can not open file!\n");
- exit(0);
- }
- i=0;
- while((ch=getc(fp))!=EOF){
- if(ch=='\n'){//读完一个字符串
- str[i]='\0';
- createHashTable(str);
- i=0;
- continue;
- }
- str[i++]=ch;
- }
- if(fclose(fp)){
- printf("can not close file!\n");
- exit(0);
- }
- }
- //在哈希表中查找是否存在该字符串,存在返回1,不存在返回0
- int search(char *str)
- {
- int i,key,step=1;
- i=key=0;
- while(str[i]){
- key+=str[i++]-'A';
- }
- key%=HASHTABLE_LENGTH;
- while(1){
- if(hashTable[key].length==0)
- return 0;
- if(strcmp(hashTable[key].str,str)==0){
- return 1;
- }
- key=(key+step+HASHTABLE_LENGTH)%HASHTABLE_LENGTH;
- //处理冲突,线性探测再散列
- if(step>0)
- step=-step;
- else{
- step=-step;
- step++;
- }
- }
- return 0;
- }
- //求所有可能的字符串
- void getString(char* num)
- {
- int i,digit,max;
- if(*num==0){//递归出口,字符串已到末尾
- string.str[string.length]='\0';
- if(search(string.str))//这个字符串存在于字典中,输出
- puts(string.str);
- return;
- }
- digit=*num-'0';//取第一位字符,转成数字
- if(digit>=2&&digit<=6){
- i=(digit-2)*3+'A';
- max=(digit-2)*3+'A'+3;
- }
- else if(digit==7){
- i='P';
- max='P'+4;
- }
- else if(digit==8){
- i='T';
- max='T'+3;
- }
- else if(digit==9){
- i='W';
- max='W'+4;
- }
- for(i;i<max;i++){
- string.str[string.length++]=i;
- getString(num+1); //递归
- string.length--;
- }
- }
- void main()
- {
- char num[STRING_LENGTH]; //由于输入的数字超出了unsigned long的范围,所以用字符串来存储
- readString(); //把字典从文件中读入内存
- printf("please inputer an number(1--12位,不能有0或1)\n");
- scanf("%s",num);
- getString(num);
- }
哈希表(散列表),Hash表漫谈的更多相关文章
- Java 集合 散列表hash table
Java 集合 散列表hash table @author ixenos 摘要:hash table用链表数组实现.解决散列表的冲突:开放地址法 和 链地址法(冲突链表方式) hash table 是 ...
- 散列表(Hash Table)
散列表(hash table): 也称为哈希表. 根据wikipedia的定义:是根据关键字(Key value)而直接访问在内存存储位置的数据结构.也就是说,它通过把键值通过一个函数的计算,映射到表 ...
- 散列表(Hash table)及其构造
散列表(Hash table) 散列表,是根据关键码值(Key value)而直接进行访问的数据结构.它通过把关键码值映射到表中一个位置来访问记录,以加快查找的速度.这个映射函数叫做散列函数,存放记录 ...
- [转载] 散列表(Hash Table)从理论到实用(上)
转载自:白话算法(6) 散列表(Hash Table)从理论到实用(上) 处理实际问题的一般数学方法是,首先提炼出问题的本质元素,然后把它看作一个比现实无限宽广的可能性系统,这个系统中的实质关系可以通 ...
- [转载] 散列表(Hash Table)从理论到实用(中)
转载自:白话算法(6) 散列表(Hash Table)从理论到实用(中) 不用链接法,还有别的方法能处理碰撞吗?扪心自问,我不敢问这个问题.链接法如此的自然.直接,以至于我不敢相信还有别的(甚至是更好 ...
- [转载] 散列表(Hash Table) 从理论到实用(下)
转载自: 白话算法(6) 散列表(Hash Table) 从理论到实用(下) [澈丹,我想要个钻戒.][小北,等等吧,等我再修行两年,你把我烧了,舍利子比钻戒值钱.] ——自扯自蛋 无论开发一个程序还 ...
- JavaScript 哈希表(散列表)应用
查找的效率与比较次数密切相关.基于比较的程序,运算效率是比较低的.比如平时可以通过indexOf查找一个数据.但这是一个基于比较的一个实现.如果是淘宝那样有上亿个商品,那么用indeOf 来查数据就会 ...
- JavaScript 哈希表(散列表)实现和应用
查找的效率与比较次数密切相关.基于比较的程序,运算效率是比较低的.比如平时可以通过indexOf查找一个数据.但这是一个基于比较的一个实现.如果是淘宝那样有上亿个商品,那么用indeOf 来查数据就会 ...
- 线性表 & 散列表
线性表: 数据排成一条线一样的机构,每个线性表上的数据最多只有前后两个方向, 包括 数组,链表,队列,栈. 非线性表 : 数据之间并不是简单的前后关系,有二叉树.图等. 散列表(基于 数组支持按照下标 ...
- 散列(Hash)表入门
一.概述 以 Key-Value 的形式进行数据存取的映射(map)结构 简单理解:用最基本的向量(数组)作为底层物理存储结构,通过适当的散列函数在词条的关键码与向量单元的秩(下标)之间建立映射关系 ...
随机推荐
- Jmeter中常用的一些对字符串的处理
1)截取部分线程组的名称 group = ctx.getThreadGroup(); // 获取当前线程组 str = group.getName(); // 获取线程组的名称 str = str.s ...
- mysql 语句的使用清库数据转移
mysql清空数据库表 方法1:重建库和表用mysqldump --no-data把建表SQL导出来,然后drop database再create database,执行一下导出的SQL文件: 方法2 ...
- MyEclipes相关配置
0. MyEclipes10 相关下载资源(私人珍藏版) 链接:http://pan.baidu.com/s/1eSIdObS密码:0cjy 1. myEclipes连接Tomcat http://w ...
- Py学生信息管理系统 案例(优化版)
# 第一题:设计一个全局变量,来保存很多个学生信息:学生(学号, 姓名,年龄):思考要用怎样的结构来保存:# 第二题:在第一题基础上,完成:让用户输入一个新的学生信息(学号,姓名,年龄):你将其保存在 ...
- C. cltt的幸运数LCAtarjan
/*C: cltt的幸运数 Time Limit: 1 s Memory Limit: 128 MB Submit Problem Description 一棵树有n个节点,共m次查询,查询 ...
- java.net.ConnectException: Call From slaver1/192.168.19.128 to slaver1:8020 failed on connection exception: java.net.ConnectException: Connection refused; For more details see: http://wiki.apache.org
1:练习spark的时候,操作大概如我读取hdfs上面的文件,然后spark懒加载以后,我读取详细信息出现如下所示的错误,错误虽然不大,我感觉有必要记录一下,因为错误的起因是对命令的不熟悉造成的,错误 ...
- 期货大赛项目|四,MVC的数据验证
上图先看下效果 样式先不说,先了解下数据验证是怎么实现的 一 必须是强类型的视图 二 这些显示提示的话语,都在强类型的实体中 三 必须使用Html.BeginForm或者Html.AjaxBeginF ...
- Spring boot+CXF开发WebService Demo
最近工作中需要用到webservice,而且结合spring boot进行开发,参照了一些网上的资料,配置过程中出现的了一些问题,于是写了这篇博客,记录一下我这次spring boot+cxf开发的w ...
- 【CF809D】Hitchhiking in the Baltic States
题意: 给你n个区间[li,ri],让你选出从中一个子序列,然后在子序列的每个区间里都选择一个tj,满足t1<t2<...<tlent1<t2<...<tlen.最 ...
- java抽象类详解
前言 在没讲抽象类之前 我们先来看看 final关键字 final 修饰符 可以修饰 类.属性.方法 修饰类时 表示该类不能被继承 其他特征 跟普通的类一样 修饰 属性时 表示 改属性不能改变 ...