hash 哈希查找复杂度为什么这么低?

(2017-06-23 21:20:36)

  分类: c
from:

还有:http://blog.csdn.net/wendavidoi/article/details/50670016
http://www.cnblogs.com/dolphin0520/archive/2012/09/28/2700000.html
哈希算法,又称散列算法,能大大提高搜索的效率。它的主要工作是将一个数字映射到一个表格的某个地方打一个比喻,哈希就像那些公司前台的接待人员,直接将领导的电话记住。而哈希,就是将每一个元素的位置记住,就是我们不去找某个东西,而是将它的位置算出来。
 

1)hash它为什么对于键-值查找性能高

学过数据结构的,都应该晓得,线性表和树中,记录在结构中的相对位置是随机的,记录和关键字之间不存在明确的关系,因此在查找记录的时候,需要进行一系列的关键字比较,这种查找方式建立在比较的基础之上,在.net中(Array,ArrayList,List)这些集合结构采用了上面的存储方式。

比如,现在我们有一个班同学的数据,包括姓名,性别,年龄,学号等。假如数据有

姓名 性别 年龄 学号
张三 15 1
李四 14 2
王五 14 3

假如,我们按照姓名来查找,假设查找函数FindByName(string name);
1)查找“张三”
只需在第一行匹配一次。
2)查找"王五"
   在第一行匹配,失败,
   在第二行匹配,失败,
   在第三行匹配,成功
上面两种情况,分别分析了最好的情况,和最坏的情况,那么平均查找次数应该为
(1+3)/2=2次,即平均查找次数为(记录总数+1)的1/2。
尽管有一些优化的算法,可以使查找排序效率增高,但是复杂度会保持在log2n的范围之内。
如何更更快的进行查找呢?我们所期望的效果是一下子就定位到要找记录的位置之上,这时候时间复杂度为1,查找最快。如果我们事先为每条记录编一个序号,然后让他们按号入位,我们又知道按照什么规则对这些记录进行编号的话,如果我们再次查找某个记录的时候,只需要先通过规则计算出该记录的编号,然后根据编号,在记录的线性队列中,就可以轻易的找到记录了

注意,上述的描述包含了两个概念,一个是用于对学生进行编号的规则,在数据结构中,称之为哈希函数,另外一个是按照规则为学生排列的顺序结构,称之为哈希表。

仍以上面的学生为例,假设学号就是规则,老师手上有一个规则表,在排座位的时候也按照这个规则来排序,查找李四,首先该教师会根据规则判断出,李四的编号为2,就是在座位中的2号位置,直接走过去,“李四,哈哈,你小子,就是在这!”

看看大体流程:
  
从上面的图中,可以看出哈希表可以描述为两个筒子,一个筒子用来装记录的位置编号,另外一个筒子用来装记录,另外存在一套规则,用来表述记录与编号之间的联系。这个规则通常是如何制定的呢?

 
 
直接取值法
直接取值法,就是直接以当前元素的值来决定它的位置。化成函数就是
H(x)=x。这种方法的好处是不可能冲突,除非两个元素一模一样。而且这样甚至能够保证在哈希表里面的元素有序,就像计数排序一样。
但是这种方法也有缺点,当x的取值太大的时候,耗费的空间同时也会很大。举个例子,如果有3个数:3,6814246421,1654654614874213,那光是这三个数,就已经耗费了巨大的内存空间了。
除法哈希
既然直接取值会耗费很大的内存空间,那我们可以模一下这个变量,一般来说,模一个数组长度,就是不错的选择。这样既可以刚刚好放下这些数据,又不会耗费太多的空间。化成函数就是H(x)=x%m。但是这样就会出现冲突。所谓冲突,就是指两个取值不一样的数,它们在哈希后得出的值相同,映射到了同一个位置。也就是说,a!=b,但H(a)==H(b)。在这里我们先不讨论冲突。那怎样尽量避免冲突呢?答案就是:模一个素数!可以证明,当H(x)定义中x%m的m的因数越多,则冲突的概率就越大。不过,其实最好的方法还是增大表格的大小,这样相应的,x%m的取值也会更为多样化。
位运算哈希
除法哈希的缺点之一,是容易冲突,而且有的时候甚至还不与整一个数相关。下面我就介绍一种位运算哈希,这种哈希主要运用乘法,而且多是位运算,速度较快。同时,除法哈希要求数组长度最好是一个素数,但在计算机中,我们更喜欢让数组长度为2的幂数,这样就不会浪费空间。确切地说,就是利用位运算,充分的混合元素。举个例子,ELFHash就是一个很好的实现。
 
乘法哈希
最后介绍一种最实用且最容易记的哈希算法。这种哈希函数叫做乘法哈希。其原理就是将原数看做一个n进制的数在转换回十进制。这种哈希算法的典型实现有BKDRHash。理解起来很容易,也是奥赛中经常用到的算法,一般来说冲突率非常小。
 
顺带附上BKDRHash的核心代码(已过测试):
  1. unsigned int BKDRHash(char *key){
  2. unsigned int seed=131;
  3. unsigned int hash=0;
  4.  
  5. while(*key)
  6. {
  7. hash = hash * seed + (*key++);
  8. }
  9. return hash%MOD;
  10. }
  11. 乘法哈希较常用到

hash 哈希查找复杂度为什么这么低?的更多相关文章

  1. 查找算法(7)--Hash search--哈希查找

    1.哈希查找 (1)什么是哈希表(Hash) 我们使用一个下标范围比较大的数组来存储元素.可以设计一个函数(哈希函数, 也叫做散列函数),使得每个元素的关键字都与一个函数值(即数组下标)相对应,于是用 ...

  2. Hash(哈希)

    一.基本概念 Hash,一般翻译做"散列",也有直接音译为"哈希"的,就是把任意长度的输入(又叫做预映射, pre-image),通过散列算法,变换成固定长度的 ...

  3. sdut 487-3279【哈希查找,sscanf ,map】

    487-3279 Time Limit: 2000ms   Memory limit: 65536K  有疑问?点这里^_^ 题目描述 题目链接: sdut:   http://acm.sdut.ed ...

  4. Hash哈希(一)

    Hash哈希(一) 哈希是大家比较常见一个词语,在编程中也经常用到,但是大多数人都是知其然而不知其所以然,再加上这几天想写一个一致性哈希算法,突然想想对哈希也不是很清楚,所以,抽点时间总结下Hash知 ...

  5. 数据结构与算法之PHP查找算法(哈希查找)

    一.哈希查找的定义 提起哈希,我第一印象就是PHP里的关联数组,它是由一组key/value的键值对组成的集合,应用了散列技术. 哈希表的定义如下: 哈希表(Hash table,也叫散列表),是根据 ...

  6. python数据结构与算法 29-1 哈希查找

    ).称为哈希查找. 要做到这种性能,我们要知道元素的可能位置.假设每一个元素就在他应该在的位置上,那么要查找的时候仅仅须要一次比較得到有没有的答案,但以下将会看到.不是这么回事. 到10. water ...

  7. Hash 哈希(上)

    Hash 哈希(上) 目录 Hash 哈希(上) 简介 Hash函数的构造 取余法 乘积取整法 其他方法 冲突的处理 挂链法 开放定址法 线性探查法 二次探查法 双哈希法 结语 简介 Hash,又称散 ...

  8. redis:hash哈希类型的操作

    1. hash哈希类型的操作 1.1. hset key field value 语法:hset key field value 作用:把key中field域的值设为value 注:如果没有field ...

  9. 第二百九十六节,python操作redis缓存-Hash哈希类型,可以理解为字典类型

    第二百九十六节,python操作redis缓存-Hash哈希类型,可以理解为字典类型 Hash操作,redis中Hash在内存中的存储格式如下图: hset(name, key, value)name ...

随机推荐

  1. Java-GC-标记压缩算法

    标记压缩算法 其分为两个阶段标记阶段,和压缩阶段.其中标记阶段和标记清除算法的标记阶段是一样的. 对压缩算法来说,他的工作就是移动所有的可达对象到堆内存的同一区域中,使它们紧凑的排列在一起,从而将所有 ...

  2. SpringMVC之DispatcherServlet类

    一.DispatcherServlet是什么 DispatcherServlet是前置控制器,配置在web.xml文件中的.拦截匹配的请求,Servlet拦截匹配规则要自已定义,把拦截下来的请求,依据 ...

  3. 洛谷P2194 HXY烧情侣

    题目描述 众所周知,\(HXY\)已经加入了\(FFF\)团.现在她要开始喜\((sang)\)闻\((xin)\)乐\((bing)\)见\((kuang)\)地烧情侣了.这里有\(n\)座电影院, ...

  4. java.sql.SQLException: No suitable driver found for jdbc:hive://localhost:10000/default

    error: java.sql.SQLException: No suitable driver found for jdbc:hive://localhost:10000/default at ja ...

  5. net core (下)

    net core (下) 第一部分: https://www.cnblogs.com/cgzl/p/8450179.html 本文是基于Windows10的. Debugging javascript ...

  6. 健康检查NET Core之跨平台的实时性能监控

    ASP.NET Core之跨平台的实时性能监控(2.健康检查)   前言 上篇我们讲了如何使用App Metrics 做一个简单的APM监控,最后提到过健康检查这个东西. 这篇主要就是讲解健康检查的内 ...

  7. 如何减小SQL 的物理读,。

    1.dev time:1226 1个跑批 db_file_multiblock_read_count =128 60.05 (mins) 26-Dec-17 16:00:20 ~ 26-Dec-17 ...

  8. Kendo DataSource 概述

    Kendo DataSource 概述 Kendo 的数据源支持本地数据源( JavaScript 对象数组),或者远程数据源(XML, JSON, JSONP),支持 CRUD 操作(创建,读取,更 ...

  9. IOS使用固定定位遇到的问题

    近日需要实现移动端页面额外功能按钮,即点击加号弹出点赞与留言功能,通常这个按钮都会固定于页面的右下角,首先就想到使用固定定位来实现. 但是在测试时我们发现,在IOS中,当系统键盘弹出时,fixed会失 ...

  10. Flash图表FusionCharts如何自定义图表导出菜单或界面

    FusionCharts的导出组件界面有两种模式: Compact Mode: 用于保存单张图片,每一个单独的导出组件实例都代表单独的图表.在这种模式下,只有一个按钮和标题是可见的. Full Mod ...