哈希表学习笔记

参考翻译自：《复杂性思考》及对应的online版本：http://greenteapress.com/complexity/html/thinkcomplexity004.html

使用哈希表可以进行非常快速的查找操作，查找时间为常数，同时不需要元素排列有序

python的内建数据类型：字典，就是用哈希表实现的

为了解释哈希表的工作原理，我们来尝试在不使用字典的情况下实现哈希表结构。

我们需要定义一个包含键->值映射的数据结构，同时实现以下两种操作：

add(k, v):

　　Add a new item that maps from key k to value v.

　　With a Python dictionary,d, this operation is written d[k] = v.

get(target):

　　Look up and return the value that corresponds to key target.

　　With a Python dictionary, d, this operation is written d[target] or d.get(target).

一种简单是实现方法是建立一个线性表，使用元组来实现 key-value 的映射关系

 class LinearMap(object):

     """ 线性表结构 """

     def __init__(self):

         self.items = []

     def add(self, k, v):    # 往表中添加元素

         self.items.append((k,v))

     def get(self, k):       # 线性方式查找元素

         for key, val in self.items:

             if key==k:      # 键存在，返回值，否则抛出异常

                 return val

         raise KeyError

我们可以在使用add添加元素时让items列表保持有序，而在使用get时采取二分查找方式，时间复杂度为O(log n)。然而往列表中插入一个新元素实际上是一个线性操作，所以这种方法并非最好的方法。同时，我们仍然没有达到常数查找时间的要求。

我们可以做以下改进，将总查询表分割为若干段较小的列表，比如100个子段。通过hash函数求出某个键的哈希值，再通过计算，得到往哪个子段中添加或查找。相对于从头开始搜索列表，时间会极大的缩短。尽管get操作的增长依然是线性，但BetterMap类使得我们离哈希表更近一步：

 class BetterMap(object):

     """ 利用LinearMap对象作为子表，建立更快的查询表 """

     def __init__(self,n=100):

         self.maps = []          # 总表格

         for i in range(n):      # 根据n的大小建立n个空的子表

             self.maps.append(LinearMap())

     def find_map(self,k):       # 通过hash函数计算索引值

         index = hash(k) % len(self.maps)

         return self.maps[index] # 返回索引子表的引用     

     # 寻找合适的子表（linearMap对象）,进行添加和查找

     def add(self, k, v):

         m = self.find_map(k)

         m.add(k,v)

     def get(self, k):

         m = self.find_map(k)

         return m.get(k)

测试一下：

 if __name__=="__main__":

     table = BetterMap()

     pricedata = [("Hohner257",257),

                  ("SW1664",280),

                  ("SCX64",1090),

                  ("SCX48",830),

                  ("Super64",2238),

                  ("CX12",1130),

                  ("Hohner270",620),

                  ("F64C",9720),

                  ("S48",1988)]

     for item, price in pricedata:

         table.add(k=item, v=price)

     print table.get("CX12")

     # >>> 1130

     print table.get("QIMEI1248")

     # >>> raise KeyError

由于每个键的hash值必然不同，所以对hash值取余的值基本也是不同的。

当n=100时， BetterMap的查找速度大约是LinearMap的100倍。

明显，BetterMap的查找速度受到参数n的限制，同时其中每个LinearMap的长度不固定，使得子段中的元素依然是线性查找。如果，我们能够限制每个子段的最大长度，这样在单个子段中查找的时间负责度就有一个固定上限，则LinearMap.get方法的时间复杂度就成为了一个常数。由此，我们仅仅需要跟踪元素的数量，每当某个LinearMap中的元素数量超过阈值时，对整个hashtable进行重排，同时增加更多的LinearMap，这样子就可以保证查找操作为一个常数啦。

以下是hashtable的实现：

 class HashMap(object):

     def __init__(self):

         # 初始化总表为，容量为2的表格（含两个子表）

         self.maps = BetterMap(2)

         self.num = 0        # 表中数据个数

     def get(self,k):

         return self.maps.get(k)

     def add(self, k, v):

         # 若当前元素数量达到临界值（子表总数）时，进行重排操作

         # 对总表进行扩张，增加子表的个数为当前元素个数的两倍！

         if self.num == len(self.maps.maps):

             self.resize()

         # 往重排过后的 self.map 添加新的元素

         self.maps.add(k, v)

         self.num += 1

     def resize(self):

         """ 重排操作，添加新表, 注意重排需要线性的时间 """

         # 先建立一个新的表,子表数 = 2 * 元素个数

         new_maps = BetterMap(self.num * 2)

         for m in self.maps.maps:  # 检索每个旧的子表

             for k,v in m.items:   # 将子表的元素复制到新子表

                 new_maps.add(k, v)

         self.maps = new_maps      # 令当前的表为新表

重点关注 add 部分，该函数检查元素个数与BetterMap的大小，如果相等，则“平均每个LinearMap中的元素个数为1”，然后调用resize方法。

resize创建一个新表，大小为原来的两倍，然后对旧表中的元素“rehashes 再哈希”一遍，放到新表中。

resize过程是线性的，听起来好像很不怎么好，因为我们要求的hashtable具有常数时间。但是，要知道我们并不需要经常进行重排操作，所以add操作在绝大部分时间中都是常数的，偶然出现线性。由于对n个元素进行add操作的总时间与n成比例，所以每次add的平均时间就是一个常数！

假设我们要添加32个元素，过程如下：

1. 由于初始长度为2，前两次add不需要重排，第1,2次总时间为 2

2. 第3次add，重排为4，耗时2，第3次时间为 3

3. 第4次add，耗时1　　　　到目前为止，总时间为 6

4. 第5次add，重排为 8，耗时4，第5次时间为5

5. 第6~8次共耗时3 　　到目前为止，总时间为 6+5+3 = 14

6. 第9次add，重排16，耗时8，第9次时间为9

7. 第10~16次，共耗时7，　到目前为止，总时间为 14+9+7 = 30

在32次add后，总时间为62的单位时间，由以上过程可以发现一个规律，在n个元素add之后，当n为2的幂，则当前总单位时间为 2n-2，所以平均add时间绝对小于2单位时间。

当n为2的幂时，为最合适的数量，当n变大之后，平均时间为稍微上升，但重要的是，我们达到了O(1)。

python数据结构与算法——哈希表的更多相关文章

Java数据结构和算法 - 哈希表
Q: 如何快速地存取员工的信息? A: 假设现在要写一个程序,存取一个公司的员工记录,这个小公司大约有1000个员工,每个员工记录需要1024个字节的存储空间,因此整个数据库的大小约为1MB.一般的计 ...
python数据结构与算法
最近忙着准备各种笔试的东西,主要看什么数据结构啊,算法啦,balahbalah啊,以前一直就没看过这些,就挑了本简单的<啊哈算法>入门,不过里面的数据结构和算法都是用C语言写的,而自己对p ...
数据结构和算法(Golang实现)(26)查找算法-哈希表
哈希表:散列查找一.线性查找我们要通过一个键key来查找相应的值value.有一种最简单的方式,就是将键值对存放在链表里,然后遍历链表来查找是否存在key,存在则更新键对应的值,不存在则将键值对链 ...
Python数据结构与算法--List和Dictionaries
Lists 当实现 list 的数据结构的时候Python 的设计者有很多的选择. 每一个选择都有可能影响着 list 操作执行的快慢. 当然他们也试图优化一些不常见的操作. 但是当权衡的时候,它们还 ...
Python数据结构与算法--算法分析
在计算机科学中,算法分析(Analysis of algorithm)是分析执行一个给定算法需要消耗的计算资源数量(例如计算时间,存储器使用等)的过程.算法的效率或复杂度在理论上表示为一个函数.其定义 ...
Python数据结构与算法之图的最短路径(Dijkstra算法)完整实例
本文实例讲述了Python数据结构与算法之图的最短路径(Dijkstra算法).分享给大家供大家参考,具体如下: # coding:utf-8 # Dijkstra算法--通过边实现松弛 # 指定一个 ...
Python数据结构与算法之图的广度优先与深度优先搜索算法示例
本文实例讲述了Python数据结构与算法之图的广度优先与深度优先搜索算法.分享给大家供大家参考,具体如下: 根据维基百科的伪代码实现: 广度优先BFS: 使用队列,集合标记初始结点已被发现,放入队列 ...
python数据结构与算法 29-1 哈希查找
).称为哈希查找. 要做到这种性能,我们要知道元素的可能位置.假设每一个元素就在他应该在的位置上,那么要查找的时候仅仅须要一次比較得到有没有的答案,但以下将会看到.不是这么回事. 到10. water ...
python数据结构与算法之算法和算法分析
1.问题.问题实例.算法的概念区分. 一个例子说明一下: 问题:判断一个正整数N是否为素数 #问题是需要解决的一个需求问题实例:判断1314是否为素数? #问题实例是该问题的一个具体例子算法: ...

随机推荐

Android图片压缩（质量压缩和尺寸压缩）
文章地址:::: http://blog.csdn.net/jdsjlzx/article/details/44228935
列王的纷争，COK，675区，有去的没有？加群：159108918，盟的名字准备叫：大话西游
首先我承认我玩物丧志了 679区,有去的没有?加群: 474574809,盟的名字叫:Moon Box 如何练最强5级号,为新区做准备?! 粮食是可以为0的,士兵不会死,这是关键之一. 关键之二是新手 ...
使用php-cs-fixer格式化你的代码
在开发中,我们会有意识的遵行一套规范来保证团队代码的一致性.PSR是我们PHP遵循的共同规范. 在这里,推荐一个代码格式化工具php-cs-fixer,可以一键把代码格式化为PSR-2的标准. 安装: ...
Android中ListView的用法
使用方法1 显示简单的文本在layout文件中像加入普通控件一样在layout文件中引入ListView <ListView android:id="@+id/list_view&q ...
仓储管理系统500bug记录一下mysql 8小时超时解决办法
HTTP Status 500 - Request processing failed; nested exception is org.springframework.dao.TransientDa ...
一个简单的游戏开发框架（七.动作Motion）
发现还没谈到最基本也是最重要的问题,怎么画图,画动画? 在原版cocos2d-x里画动画比较麻烦,见cocos2d-x学习笔记04:简单动画 cocostudio扩展出CCArmature类,就比较简 ...
java web学习之初识jsp
用java语言(+html语言)开发动态资源的技术: jsp的运行过程,1:tomcat服务器将jsp代码翻译成java代码,并且编译成class文件 2:tomcat服务器构造类对象 3:tomca ...
【初级】linux rm 命令详解及使用方法实战
rm:删除命令前言: windows中的删除命令大家都不陌生,linux中的删除命令和windows中有一个共同特点,那就是危险,前两篇linux mkdir 命令详解及使用方法实战[初级]中我们就 ...
开发板远程操作SQL SERVER解决方案
环境: 开发板:freescale 2.6 armv71,系统只读,唯一可以读写的路径是/tmp/sd(这是一个sd卡).程序放在/tmp/sd/transfer下(下文以运行路径代替),sql语句以 ...
python 异常处理学习笔记
搬运至慕课网,精华截图,视频链接在这 : http://www.imooc.com/learn/457 1. 异常检查目的 2. python 可能出现的异常 3. 异常的处理过程 try - ex ...

python数据结构与算法——哈希表

哈希表 学习笔记

python数据结构与算法——哈希表的更多相关文章

随机推荐

热门专题

哈希表学习笔记