映射与字典

字典dict是Python中重要的数据结构,在字典中,每一个键都对应一个值,其中键与值的关系就叫做映射,也可以说是每一个键都映射到一个值上。

映射(map)是更具一般性的数据类型,具体到Python中就是字典。

一个简单实现

在使用字典的同时我们一定会有一个疑问,它是怎样通过键去映射到值的呢,它怎么知道这个键的值是谁?

于是我们有了一个这样的想法:

使用列表来存储一项一项的键值对象,寻找的时候就遍历一遍列表,找到当键是你所要找的键时,取出该对象中的值value。

这个想法很简单,我们可以很快的实现一下:

这里先介绍一些相关的抽象基类,Mapping与MutableMapping,它们在collections模块中,供我们实现自定义的map类。Mapping包含dict中的所有不变方法,MutableMapping扩展包含了所有可变方法,但它们两个都不包含那五大核心特殊方法:getitem、setitem、delitem、len、iter。也就是说我们的目标就是实现这五大核心方法使该数据结构能够使用。


  1. from collections import MutableMapping
  2. class MyMap(MutableMapping):
  3. class item():
  4. def __init__(self,key,value):
  5. self.key = key
  6. self.value = value
  7. def __eq__(self, other):
  8. return self.key == other.key
  9. def __ne__(self, other):
  10. return self.key != other.key
  11. def __init__(self):
  12. self.table = []
  13. def __getitem__(self, item):
  14. for i in self.table:
  15. if i.key == item:
  16. return i.value
  17. raise KeyError('Key Error: '+ repr(item))
  18. def __setitem__(self, key, value):
  19. for i in self.table:
  20. if i.key == key:
  21. i.value = value
  22. return
  23. self.table.append(self.item(key,value))
  24. def __delitem__(self, key):
  25. for n,i in enumerate(self.table):
  26. if i.key == key:
  27. self.pop(n)
  28. return
  29. raise KeyError('Key Error: '+ repr(key))
  30. def __len__(self):
  31. return len(self.table)
  32. def __iter__(self):
  33. for i in self.table:
  34. yield i.key

上面这个办法很简单,但是却不是很有效率,我们每次都需要遍历一遍列表才能找到该键的索引,所以时间复杂的为O(n),我们希望这个映射的时间复杂度为O(1)或者是一个常数级别的,于是我们使用叫做哈希表的结构来实现

哈希表

首先先介绍一下哈希表的实现方式

1.对于一个键,我们需要计算出一个值来代表这个键,也就是将键映射到一个整数上,这个整数可以是正数也可以是负数,这一步就是求哈希值

2.这些哈希值有正有负,互相之间没有什么关系,并且位数也可能是好几位,我们想要把这些哈希值再次映射到一个区间[0,N-1]中,使得可以通过列表的整数索引去查找,这一步就是对哈希码的压缩,使用的函数叫做压缩函数

3.在经过压缩函数处理后,就可以得到原先的键对应的列表索引了,但是求哈希值与执行压缩函数的过程中,可能会有冲突发生,也就是得出的值不一定只是属于本键唯一的,可能一个其他的键也会得到同样的值。这时就要在最后把这种冲突处理掉,这一步就叫做冲突处理。

下面具体介绍一下这三个步骤

1.哈希码

求哈希码有很多种方式

将位作为整数处理

举个例子,Python中的哈希码是32位的,如果一个浮点数是64位,我们可以采取取其高32位为哈希码,或者低32位为哈希码,但这样极易出现冲突,所以可以采取高32位与低32位按位相加,或者按位异或

多项式哈希码

对于像是字符串这样的对象,如果按照求和或异或的方式,可能会产生更多的冲突,比如temp10与temp01就会得到相同的哈希码。在字符串中,字符的位置非常重要,所以需要采取一种与位置有关系的哈希码计算方法,如下面这个式子:

x0a^(n-1)+x1a^(n-2)+……+x(n-2)a+x(n-1)

(x0,x1,x2,……,xn-1)是一个32位整数的n元组,是对象x的二进制表示

采用这种计算方式就可以与位置有关联了

循环移位哈希码

利用二进制位循环移位方式,如下面这个字符串循环移位哈希码计算的实现:


  1. def hash_code(s):
  2. mask = (1 << 32) - 1
  3. h = 0
  4. for character in s:
  5. h = (h << 5 & mask) | (h >> 27)
  6. h += ord(character)
  7. return h

<<是左移,>>是右移,&是按位与,|是按位或,ord()函数返回一个字符的ascii码或unicode值

Python中的哈希码

Python中提供了hash()函数,传入对象x,返回一个整型值作为它的哈希码

在Python中只有不可变类型才可以使用hash,如果把我们自定义的对象作为参数传入则会报错。

若想让我们自定义的对象能够使用,可以在类中实现一个叫做hash的特殊方法,在该函数中调用hash函数,并传入该对象的一些不可变属性组合,将值再返回,例如:


  1. def __hash__(self):
  2.   return hash((self.red,self.green,self.blue))

2.压缩函数

划分方法

要把哈希码映射到[0,N-1]的区间中,最简单的方式就是进行求余数,例如f(i) = i modN

可是这样显然会有大量的冲突,一种稍微能够减小冲突的办法是将N改为一个素数

这样能够得到一些改善,但是pN+q类型的哈希码还是会被压缩成同一个数

MAD方法

MAD即Multiply-Add-and-Divide,这个方法通过下面这个式子进行映射

[(ai+b) mod p] mod N

N是区间的大小,p是比N大的素数,a和b是从区间[0,p-1]任意选择的整数且a>0

这个函数会尽可能的使映射均匀的分配到[0,N-1]中

3.冲突处理

尽管在求哈希值与压缩函数的过程中我们尽可能避免发生冲突,但还是会有可能造成冲突的,为此还需要进行冲突的处理

使用二级容器

把列表中的每一项都存储为一个二级容器,将映射到该项的键值存入到二级容器中,查找键时先定位到二级容器,再在二级容器中寻找。这里的二级容器的效率要求就不是那么高了,可以使用上文中最开始定义的映射的简单实现来做这个二级容器。在整个哈希表中,我们希望存储的键值项的数量n小于N,也就是n/N<1,n/N叫做这个哈希表的负载因子。

线性探测

这个简单说就是如果映射到这个地方已经有其他键值占上了,那么就向它的后一位放,如果后一位也有了,就继续向后放,知道找到一个空位,然后放进去。

查找的时候,映射到一个位置时要判断一下是不是要找的那个key,如果不是就向后一位找,知道找到是相同键了或者出现空位了,就停止

删除的时候,一样是先找到,然后为了不影响查找,不能简单的将其设置为空,应该用一个标记的对象填住该位置,这时查找的方法也要进行一些改动使其能够跳过这种标记位置。

这种方法的缺点是每一对键值会连续的存储,这种聚集的现象会导致效率的问题。

二次探测

为了改善线性探测聚集现象的发生,原先采用的(j+i)mod N(j为压缩函数得出的值,i为1,2,3….)探测方式改为(j+i^2)mod N

但是当元素超过了哈希表的一半时,这种方式无法保证找到空闲的位置。而且这种方式的删除或其他操作也会更复杂

双哈希策略

这种方式选择了再次进行哈希,如将探测方式改为(j+i*h(k))mod N,h()为一个哈希函数,k为键。

Python字典所采用的方式

字典采用的是(j+f(i))mod N的方式,f(i)是一个基于伪随机数产生器的函数,它提供一个基于原始位的可重复的但是随机的,连续的地址探测序列。

用Python具体实现

首先是一个哈希表的基类,采用MAD的压缩函数


  1. class HashMapBase(MutableMapping):
  2. """哈希表的基类,需要在子类中实现_inner_getitem,_inner_setitem,
  3. _inner_delitem与__iter__"""
  4. class item():
  5. def __init__(self, key, value):
  6. self.key = key
  7. self.value = value
  8. def __eq__(self, other):
  9. return self.key == other.key
  10. def __ne__(self, other):
  11. return self.key != other.key
  12. def __init__(self,cap=11,p=109345121):
  13. self._table = cap*[None]
  14. self._n = 0 # 元素数量
  15. self._prime = p # MAD中的参数
  16. self._scale = 1 + random.randrange(p+1) # MAD中的参数
  17. self._shift = random.randrange(p) # MAD中的参数
  18. def _hash_func(self,key):
  19. return (hash(key)*self._scale+self._shift)%self._prime%len(self._table)
  20. def __len__(self):
  21. return self._n
  22. def __getitem__(self, k):
  23. j = self._hash_func(k)
  24. return self._inner_getitem(j,k)
  25. def __setitem__(self, key, value):
  26. j = self._hash_func(key)
  27. self._inner_setitem(j,key,value)
  28. if self._n>len(self._table)//2: #调整大小,使负载因子小于等于0.5
  29. self._resize(2*len(self._table)-1)
  30. def __delitem__(self, key):
  31. j = self._hash_func(key)
  32. self._inner_delitem(j,key)
  33. self._n -= 1
  34. def _resize(self,cap):
  35. old = list(self.items())
  36. self._table = cap*[None]
  37. self._n = 0
  38. for (k,v) in old:
  39. self[k] = v

其中innergetitem,_inner_setitem,_inner_delitem的实现需要结合处理冲突的方式,猜测self.items()是内部调用了__iter方法实现的

使用二级容器


  1. class HashMapOne(HashMapBase):
  2. """使用二级容器解决冲突的方式实现的哈希表"""
  3. def _inner_getitem(self,j,k):
  4. bucket = self._table[j] #把二级容器叫做桶
  5. if bucket is None:
  6. raise KeyError('Key Error: '+ repr(k))
  7. return bucket[k]
  8. def _inner_setitem(self,j,k,v):
  9. if self._table[j] is None:
  10. self._table[j] = MyMap()
  11. oldsize = len(self._table[j])
  12. self._table[j][k] = v
  13. if len(self._table[j])>oldsize:
  14. self._n += 1
  15. def _inner_delitem(self,j,k):
  16. bucket = self._table[j]
  17. if bucket is None:
  18. raise KeyError('Key Error: ' + repr(k))
  19. del bucket[k]
  20. def __iter__(self):
  21. for bucket in self._table:
  22. if bucket is not None:
  23. for key in bucket:
  24. yield key

使用线性探测


  1. class HashMapTwo():
  2. """使用线性探测解决冲突实现的哈希表"""
  3. _AVAIL = object() # 标记删除位置
  4. def _is_available(self, j):
  5. """判断该位置是否可用"""
  6. return self._table[j] is None or self._table[j] is HashMapTwo._AVAIL
  7. def _find_slot(self, j, k):
  8. """寻找键k所在的索引
  9. 如果找到了,返回(True,索引)
  10. 如果没找到,返回(False,第一个可提供的索引位置)"""
  11. firstAvail = None
  12. while True:
  13. if self._is_available(j):
  14. if firstAvail is None: # _AVAIL标记可以是第一个可提供的位置
  15. firstAvail = j
  16. if self._table[j] is None: # 跳过_AVAIL标记
  17. return (False, firstAvail)
  18. elif k == self._table[j].key:
  19. return (True, j)
  20. j = (j + 1) % len(self._table) # 向下一个查找
  21. def _inner_getitem(self, j, k):
  22. found, s = self._find_slot(j, k)
  23. if not found:
  24. raise KeyError('Key Error: ' + repr(k))
  25. return self._table[s].value
  26. def _inner_setitem(self, j, k, v):
  27. found, s = self._find_slot(j, k)
  28. if not found: # 使用第一个可提供的位置
  29. self._table[s] = self.Item(k, v)
  30. self._n += 1
  31. else:
  32. self._table[s].value = v
  33. def _inner_delitem(self, j, k):
  34. found, s = self._find_slot(j, k)
  35. if not found:
  36. raise KeyError('Key Error: ' + repr(k))
  37. self._table[s] = HashMapTwo._AVAIL # 删除标记
  38. def __iter__(self):
  39. for j in range(len(self._table)):
  40. if not self._is_available(j):
  41. yield self._table[j].key

参考《数据结构与算法Python语言实现》

用Python实现数据结构之映射的更多相关文章

  1. 用Python实现数据结构之二叉搜索树

    二叉搜索树 二叉搜索树是一种特殊的二叉树,它的特点是: 对于任意一个节点p,存储在p的左子树的中的所有节点中的值都小于p中的值 对于任意一个节点p,存储在p的右子树的中的所有节点中的值都大于p中的值 ...

  2. (python数据分析)第03章 Python的数据结构、函数和文件

    本章讨论Python的内置功能,这些功能本书会用到很多.虽然扩展库,比如pandas和Numpy,使处理大数据集很方便,但它们是和Python的内置数据处理工具一同使用的. 我们会从Python最基础 ...

  3. 转 Python常见数据结构整理

    http://www.cnblogs.com/jeffwongishandsome/archive/2012/08/05/2623660.html Python常见数据结构整理 Python中常见的数 ...

  4. python 与数据结构

    在上面的文章中,我写了python中的一些特性,主要是简单为主,主要是因为一些其他复杂的东西可以通过简单的知识演变而来,比如装饰器还可以带参数,可以使用装饰类,在类中不同的方法中调用,不想写的太复杂, ...

  5. [0x00 用Python讲解数据结构与算法] 概览

    自从工作后就没什么时间更新博客了,最近抽空学了点Python,觉得Python真的是很强大呀.想来在大学中没有学好数据结构和算法,自己的意志力一直不够坚定,这次想好好看一本书,认真把基本的数据结构和算 ...

  6. Python -- 堆数据结构 heapq - I love this game! - 博客频道 - CSDN.NET

    Python -- 堆数据结构 heapq - I love this game! - 博客频道 - CSDN.NET Python -- 堆数据结构 heapq 分类: Python 2012-09 ...

  7. python实现数据结构单链表

    #python实现数据结构单链表 # -*- coding: utf-8 -*- class Node(object): """节点""" ...

  8. 《用Python解决数据结构与算法问题》在线阅读

    源于经典 数据结构作为计算机从业人员的必备基础,Java, c 之类的语言有很多这方面的书籍,Python 相对较少, 其中比较著名的一本 problem-solving-with-algorithm ...

  9. 【转】Python之mmap内存映射模块(大文本处理)说明

    [转]Python之mmap内存映射模块(大文本处理)说明 背景: 通常在UNIX下面处理文本文件的方法是sed.awk等shell命令,对于处理大文件受CPU,IO等因素影响,对服务器也有一定的压力 ...

随机推荐

  1. 课程四(Convolutional Neural Networks),第三 周(Object detection) —— 0.Learning Goals

    Learning Goals: Understand the challenges of Object Localization, Object Detection and Landmark Find ...

  2. 关于git的常用命令

    1.git add <name> 将工作区的内容添加到暂存区 2.git commit -m <备注> 将内容提交到暂存区 3.git status  查看状态 4.  git ...

  3. Android多线程编程<二>Handler异步消息处理机制之Message

      Message(消息):       一. Message的字段:    在Android中,Message作为线程之间(主要是子线程和UI主线程之间)数据交换的载体,通过Handler去传递.它 ...

  4. 从零开始学 Web 之 JavaScript(四)数组

    大家好,这里是「 Daotin的梦呓 」从零开始学 Web 系列教程.此文首发于「 Daotin的梦呓 」公众号,欢迎大家订阅关注.在这里我会从 Web 前端零基础开始,一步步学习 Web 相关的知识 ...

  5. 一文了解JAVA虚拟机的重要组成

    JVM是JAVA平台的重要组成之一,因涉及知识点太多,故从以下几个方面对JVM进行浅层面的介绍,如果需要深入理解,推荐学习机械工业出版社的<深入理解JAVA虚拟机>. 请尊重作者劳动成果, ...

  6. Python 浅谈编程规范和软件开发目录规范的重要性

    最近参加了一个比赛,然后看到队友编程的代码,我觉得真的是觉得注释和命名规范的重要性了,因为几乎每个字符都要咨询他,用老师的话来说,这就是命名不规范的后续反应.所以此时的我意识到写一篇关于注释程序的重要 ...

  7. 【ASP.NET MVC系列】浅谈ASP.NET 程序发布过程

    ASP.NET MVC系列文章 [01]浅谈Google Chrome浏览器(理论篇) [02]浅谈Google Chrome浏览器(操作篇)(上) [03]浅谈Google Chrome浏览器(操作 ...

  8. [转]debian9 安装任意版本mysql

    Debian 9 - Install MySQL Server The steps below will show you how to install whichever version of My ...

  9. Jenkins持续集成学习-Windows环境进行.Net开发2

    目录 Jenkins持续集成学习-Windows环境进行.Net开发2 目录 前言 目标 使用 .Net Stardard 单元测试 流程 手动执行单元测试 自动执行单元测试 单元测试报告 上传Nug ...

  10. Sherman-Morrison公式及其应用

    Sherman-Morrison公式   Sherman-Morrison公式以 Jack Sherman 和 Winifred J. Morrison命名,在线性代数中,是求解逆矩阵的一种方法.本篇 ...