散列 Hasing

前言

如果数据项之间是按照大小排好序的话，就可以利用二分查找来降低算法复杂度。
- 现在我们进一步来构造一个新的数据结构，能使得查找算法的复杂度降到O(1)，这种概念称为“散列Hashing“
能够使得查找的次数降低到常数级别，我们对数据项所处的位置就必须有更多的先验知识。
- 如果我们事先能知道要找的数据项应该出现在数据集中的什么位置，就可以直接到那个位置看看数据项是否存在即可
- 由数据项的值来确定其存放位置

基本概念

散列表（hash table，又称哈希表）是一种数据集，其中数据项的存储方式尤其有利于将来快速的查找定位。
散列表中的每一个存储位置，称为槽（slot），可以用来保存数据项，每个槽有一个唯一的名称。
实现从数据项到存储槽名称的转换的，称为散列函数（hash function）

槽被数据项占据的比例称为散列表的“负载因子”，这里负载因子为6/11
要查找某个数据项是否存在于表中，我们只需要使用同一个散列函数，对查找项进行计算，测试下返回的槽号所对应的槽中是否有数据项即可

实现了O(1)时间复杂度的查找算法
分配到同一个槽中，这种情况称为“冲突collision”

完美散列函数

定义

给定一组数据项，如果一个散列函数能把每个数据项映射到不同的槽中，那么这个散列函数就可以称为“完美散列函数”
但如果数据项经常性的变动，很难有一个系统性的方法来设计对应的完美散列函数

获得方法

扩大散列表的容量，大到所有可能出现的数据项都能够占据不同的槽
- 但这种方法对于可能数据项范围过大的情况并不实用
  
  假如我们要保存手机号（11位数字），完美散列函数得要求散列表具有百亿个槽！会浪费太多存储空间
好的散列函数需要具备特性
- 冲突最少（近似完美）
- 计算难度低（额外开销小）
- 充分分散数据项（节约空间）

散列函数MD5/SHA

MD5（Message Digest）将任何长度的数据变换为固定长为128位（16字节）的“摘要”
SHA（Secure Hash Algorithm）是另一组散列函数
- SHA-0/SHA-1输出散列值160位（20字节），
- SHA-256/SHA-224分别输出256位、 224位，
- SHA-512/SHA-384分别输出512位和384位
Python自带MD5和SHA系列的散列函数库： hashlib

import hashlib

print(hashlib.md5("hello world".encode("utf-8")).hexdigest())

print(hashlib.sha1("hello world".encode("utf-8")).hexdigest())

>>>

5eb63bbbe01eeed093cb22bb8f5acdc3

2aae6c35c94fcfb415dbe95f408b9ce91ee846ed

import hashlib

m=hashlib.md5()

m.update("hello world".encode("utf-8"))

m.update("this is part #2".encode("utf-8"))

m.update("this is part #3".encode("utf-8"))

print(m.hexdigest())

应用：完美散列函数用于数据一致性校验

数据文件一致性判断
为每个文件计算其散列值，仅对比其散列值即可得知是否文件内容相同；
用于网络文件下载完整性校验；
用于文件分享系统：网盘中相同的文件（尤其是电影）可以无需存储多次
加密形式保存密码
仅保存密码的散列值，用户输入密码后，计算散列值并比对；
无需保存密码的明文即可判断用户是否输入了正确的密码。
防文件篡改：原理同数据文件一致性判断
彩票投注应用

彩民下注前，机构将中奖的结果散列值公布，然后彩民投注，开奖后，彩民可以通过公布的结果和散列值对比，验证机构是否作弊。

区块链技术

概念

区块链是一种分布式数据库通过网络连接的节点每个节点都保存着整个数据库所有数据任何地点存入的数据都会完成同步
区块链最本质特征是“去中心化”不存在任何控制中心、协调中心节点所有节点都是平等的，无法被控制

数据结构

区块链由一个个区块（block）组成，区块分为头（head）和体（body）
- 区块头记录了区块的信息
  
  生成时间、前一个区块(head+body)的散列值
- 区块体记录了实际数据

不可修改性

由于散列值具有抗修改性，任何对某个区块数据的改动必然引起散列值的变化
为了不导致这个区块脱离链条，就需要修改所有后续的区块
由于有“工作量证明”的机制，这种大规模修改不可能实现的，除非掌握了全网51%以的计算力

工作量证明： Proof of Work(POW)

由于区块链是大规模的分布式数据库，同步较慢，新区块的添加速度需要得到控制

目前最大规模区块链Bitcoin采用的速度是平均每10分钟生成一个区块
大家不惜付出海量的计算，去抢着算出一个区块的有效散列值
最先算出的那位“矿工”才有资格把区块挂到区块链中

为什么有效散列值那么难算出？

矿工的工作是，找到一个数值Nonce，把它跟整个区块数据一起计算散列，这个散列值必须小于target，才是有效的散列值
由于散列值无法回推原值，这个Nonce的寻找只能靠暴力穷举，计算工作量+运气是唯一的方法。

为什么矿工抢着生成区块？

因为有利益！
在加密货币Bitcoin中，区块内包含的数据是“交易记录”，也就是“账本”，这对于货币体系至关重要
Bitcoin规定，每个区块中包含了一定数量的比特币作为“记账奖励”，这样就鼓励了更多人加入到抢先记账的行列
由于硬件摩尔定律的存在，计算力将持续递增，为了维持每10分钟生成一个区块的速度，难度系数Difficulty也将持续递增
另外，为了保持货币总量不会无限增加，每4年奖励的比特币减半

2008年开始是50个， 2019年为12.5个

散列函数设计

折叠法

将数据项按照位数分为若干段，
再将几段数字相加，
最后对散列表大小求余，得到散列值

例如， 对电话号码62767255可以两位两位分为4段（62、 76、 72、 55）

相加（62+76+72+55=265）

散列表包括11个槽，那么就是265%11=1

所以h(62767255)=1

有时候折叠法还会包括一个隔数反转的步骤(一种微调手段)

比如（62、 76、 72、 55）隔数反转为（62、 67、 72、 55）

再累加（62+67+72+55=256）

对11求余（256%11=3），所以h'(62767255)=3

平方取中法

平方取中法，首先将数据项做平方运算，
然后取平方数的中间两位，再对散列表的
大小求余

例如， 对44进行散列

首先44*44=1936

然后取中间的93

对散列表大小11求余， 93%11=5

折叠法与平方取中法比较

两个都是完美散列函数
分散度都很好
平方取中法计算量稍大

非数项

我们也可以对非数字的数据项进行散列，把字符串中的每个字符看作ASCII码即可
再将这些整数累加，对散列表大小求余

如cat， ord('c')==99, ord('a')==96,ord('t')==116

def hash(astring, tablesize):

    sum = 0

    for pos in range(len(astring)):

        sum = sum + ord(astring[pos])

    return sum % tablesize

u3 = hash('hello', 11)

print(u3)

缺陷与解决方法

这样的散列函数对所有的变位词都返回相同的散列值
为了防止这一点，可以将字符串所在的位置作为权重因子，乘以ord值

散列函数设计原则

散列函数不能成为存储过程和查找过程的计算负担
如果散列函数设计太过复杂，去花费大量的计算资源计算槽号。可能还不如简单地进行顺序查找或者二分查找

失去了散列本身的意义

冲突解决方案

概念

如果两个数据项被散列映射到同一个槽，需要一个系统化的方法在散列表中保存第二个数据项，这个过程称为“解决冲突”
如果说散列函数是完美的，那就不会有散列冲突，但完美散列函数常常是不现实的

方法1：开放定址 open addressing —— 寻找空槽的技术

解决散列的一种方法就是为冲突的数据项再找一个开放的空槽来保存
最简单的就是从冲突的槽开始往后扫描，直到碰到一个空槽
如果到散列表尾部还未找到，则从首部接着扫描

线性探测linear probing —— 向后逐个槽寻找的方法

采用线性探测方法来解决散列冲突的话，则散列表的查找也遵循同样的规则
- 如果在散列位置没有找到查找项的话，就必须向
- 后做顺序查找直到找到查找项，或者碰到空槽（查找失败）。
缺点：有聚集（clustering）的趋势

连锁式影响其它数据项的插入
改进：避免聚集的一种方法就是将线性探测扩展，从逐个探测改为跳跃式探测

再散列rehashing

重新寻找空槽的过程可以用一个更为通用的“再散列rehashing”来概括
跳跃式探测中，
- 需要注意的是skip的取值，不能被散列表大小整除，否则会产生周期，造成很多空槽永远无法探测到
- 一个技巧是，把散列表的大小设为素数，如例子的11
还可以将线性探测变为 “二次探测quadratic probing”
- 不再固定skip的值，而是逐步增加skip值，如1、 3、 5、 7、 9
- 这样槽号就会是原散列值以平方数增加：h, h+1, h+4, h+9, h+16...

方法2：数据项链Chaining

概念

将容纳单个数据项的槽扩展为容纳数据项集合（或者对数据项链表的引用）
散列表中的每个槽就可以容纳多个数据项，如果有散列冲突发生，只需要简单地将数据项添加到数据项集合中。
查找数据项时则需要查找同一个槽中的整个集合，当然，随着散列冲突的增加，对数据项的查找时间也会相应增加。

映射抽象数据类型 ADT Map

字典

字典是一种可以保存key-data键值对的数据类型
这种键值关联的方法称为“映射Map“
ADT Map的结构是键-值关联的无序集合
- 关键码具有唯一性
- 通过关键码可以唯一确定一个数据值

实现ADT Map：应用实例

下面，我们用一个HashTable类来实现ADT Map，该类包含了两个列表作为成员
- 其中一个slot列表用于保存key
- 另一个平行的data列表用于保存数据项
在slot列表查找到一个key的位置以后，在data列表对应相同位置的数据项即为关联数据

class HashTable:

    def __init__(self):

        self.size=11

        self.slots=[None]*self.size

        self.data=[None]*self.size

    def __getitem__(self,key):

        return self.get(key)

    def __setitem__(self,key,data):

        self.put(key,data)

    def hashfunction(self,key):

        return key% self.size

    def rehash(self,oldhash):

        return (oldhash+1)%self.size

    def put(self,key,data):

        hashvalue=self.hashfunction(key)

        if self.slots[hashvalue]==None: # 新槽，不冲突

            self.slots[hashvalue]=key

            self.data[hashvalue]=data

        else:

            if self.slots[hashvalue]==key: # 找到槽，更新数据

                self.data[hashvalue]=data

            else: # 寻找新槽

                nextslot=self.rehash(hashvalue)

                while self.slots[nextslot]!=None and self.slots[nextslot] !=key:

                    nextslot=self.rehash(hashvalue)

                if self.slots[nextslot]==None:# 新槽，不冲突

                    self.slots[nextslot]=key

                    self.data[nextslot]=data

                else:

                    self.data[nextslot]=data #更新数据

    def get(self,key):

        # 标记散列值为查找起点

        startslot=self.hashfunction(key)

        data=None

        stop=False

        found=False

        position=startslot

        # 找key，直到空槽或回到起点

        while self.slots[position]!=None and not found and not stop:

            if self.slots[position]==key:

                found=True

                data=self.data[position]

            # 未找到key，再散列继续找

            else:

                position=self.rehash(position)

                if position==startslot:

                    stop=True

        return data

if __name__ == "__main__":

    H = HashTable()

    H[54] = "cat"

    H[26] = "dog"

    H[20] = "chicken"

    print(H.slots)

    print(H.data)

    print(H[20])

>>>

[None, None, None, None, 26, None, None, None, None, 20, 54]

[None, None, None, None, 'dog', None, None, None, None, 'chicken', 'cat']

chicken

散列算法分析

散列在最好的情况下，可以提供O(1)常数级时间复杂度的查找性能

由于散列冲突的存在，查找比较次数就没有这么简单
评估散列冲突的最重要信息就是负载因子λ，一般来说：
- 如果λ较小，散列冲突的几率就小，数据项通常会保存在其所属的散列槽中
- 如果λ较大，意味着散列表填充较满，冲突会越来越多，冲突解决也越复杂，也就需要更多的比较来找到空槽；如果采用数据链的话，意味着每条链上的数据项增多
如果采用线性探测的开放定址法来解决冲突（λ在0~1之间）
如果采用数据链来解决冲突（λ可大于1）

【数据结构与算法Python版学习笔记】查找与排序——散列、散列函数、区块链的更多相关文章

【数据结构与算法Python版学习笔记】引言
学习来源北京大学-数据结构与算法Python版目标了解计算机科学.程序设计和问题解决的基本概念计算机科学是对问题本身.问题的解决.以及问题求解过程中得出的解决方案的研究.面对一个特定问题,计 ...
【数据结构与算法Python版学习笔记】目录索引
引言算法分析基本数据结构概览栈 stack 队列 Queue 双端队列 Deque 列表 List,链表实现递归(Recursion) 定义及应用:分形树.谢尔宾斯基三角.汉诺塔.迷宫优化 ...
【数据结构与算法Python版学习笔记】基本数据结构——列表 List，链表实现
无序表链表定义一种数据项按照相对位置存放的数据集抽象数据类型无序列表 UnorderedList 方法 list() 创建一个新的空列表.它不需要参数,而返回一个空列表. add(item) 将 ...
【数据结构与算法Python版学习笔记】算法分析
什么是算法分析算法是问题解决的通用的分步的指令的聚合算法分析主要就是从计算资源的消耗的角度来评判和比较算法. 计算资源指标存储空间或内存执行时间影响算法运行时间的其他因素分为最好.最差和平 ...
【数据结构与算法Python版学习笔记】递归(Recursion)——优化问题与策略
分治策略:解决问题的典型策略,分而治之将问题分为若干更小规模的部分通过解决每一个小规模部分问题,并将结果汇总得到原问题的解递归算法与分治策略递归三定律体现了分支策略应用相当广泛排序查找 ...
【数据结构与算法Python版学习笔记】递归(Recursion)——定义及应用：分形树、谢尔宾斯基三角、汉诺塔、迷宫
定义递归是一种解决问题的方法,它把一个问题分解为越来越小的子问题,直到问题的规模小到可以被很简单直接解决. 通常为了达到分解问题的效果,递归过程中要引入一个调用自身的函数. 举例数列求和 def ...
【数据结构与算法Python版学习笔记】树——利用二叉堆实现优先级队列
概念队列有一个重要的变体,叫作优先级队列. 和队列一样,优先级队列从头部移除元素,不过元素的逻辑顺序是由优先级决定的. 优先级最高的元素在最前,优先级最低的元素在最后. 实现优先级队列的经典方法是使 ...
【数据结构与算法Python版学习笔记】树——相关术语、定义、实现方法
概念一种基本的"非线性"数据结构--树根枝叶广泛应用于计算机科学的多个领域操作系统图形学数据库计算机网络特征第一个属性是层次性,即树是按层级构建的,越笼统就越 ...
【数据结构与算法Python版学习笔记】图——最短路径问题、最小生成树
最短路径问题概念可以通过"traceroute"命令来跟踪信息传送的路径: traceroute www.lib.pku.edu.cn 可以将互联网路由器体系表示为一个带权边的 ...

随机推荐

MySQL——MySQL安装
1.rpm yum安装:安装方便.速度快.无法定制 2.二进制安装:解压即可使用,不能定制功能 3.编译安装: 可定制.安装慢: MySQL5.5之前:./configure make make in ...
PyQt5 笔记
一.简介 pyqt5做为Python的一个模块,它有620多个类和6000个函数和方法.这是一个跨平台的工具包,它可以运行在所有主要的操作系统,包括UNIX,Windows,Mac OS.pyqt5是 ...
腾讯与Intel就云游戏的探讨
今天去参加了在腾讯北京总部的腾讯音视频技术 HUB 技术巡回大会,对其中的云游戏应用的探讨格外感兴趣.正巧最近元宇宙概念很火,这篇文章就大会中对云游戏的探讨进行总结和汇报. 讲述一下来自Intel的工 ...
DFS与DFS迷宫问题
一天蒜头君掉进了一个迷宫里面,蒜头君想逃出去,可怜的蒜头君连迷宫是否有能逃出去的路都不知道. 看在蒜头君这么可怜的份上,就请聪明的你告诉蒜头君是否有可以逃出去的路. 输入格式第一行输入两个整数n 和 ...
cnblogs-theme-silence 主题设置简约风格
本文参考更改博客皮肤更改博客皮肤为Custom 页面定制CSS代码勾选禁用模板默认CSS 导入复制该文件内容到代码框中配置代码块复制功能样式和右侧滑动条样式 /*复制功能添加按钮 beg ...
快乐中秋，SQL小白入门指南
目录创建表最基本的创建怎么查看一个已经建好的表的信息呢修改字段插入数据修改和删除数据修改删除第一个查询条件语句使用age的大小比较,查看大于16岁的学生: 使用多个条件并联,大于 ...
httpd进程数统计，IP封禁，IP连接数量情况查看
ps -ef|grep httpd|wc -l 统计httpd进程数,连个请求会启动一个进程,使用于Apache服务器. 查看Apache的并发请求数及其TCP连接状态:netstat -n | aw ...
Django边学边记--状态保持（cookie和session）
Cookie 概念: Cookie,也叫Cookies,指某些网站为了辨别用户身份.进行session跟踪而储存在用户本地终端上的数据(通常经过加密),好比会员卡或餐票. 特点: Cookie是由服务 ...
fibnacci数列
斐波那契数列(Fibonacci sequence),又称黄金分割数列.因数学家列昂纳多·斐波那契(Leonardoda Fibonacci)以兔子繁殖为例子而引入,故又称为"兔子数列&qu ...
MySQL&ES连接池
数据库的连接池建议放在类似settings.py的配置模块中,因为基本都是配置项,方便统一管理. 1) 连接池类#settings.py import os from DBUtils.PooledDB ...

【数据结构与算法Python版学习笔记】查找与排序——散列、散列函数、区块链

散列 Hasing

前言

基本概念

完美散列函数

定义

获得方法

更多用途

散列函数MD5/SHA

应用：完美散列函数用于数据一致性校验

区块链技术

概念

数据结构

不可修改性

工作量证明： Proof of Work(POW)

为什么有效散列值那么难算出？

为什么矿工抢着生成区块？

散列函数设计

折叠法

平方取中法

折叠法与平方取中法比较

非数项

缺陷与解决方法

散列函数设计原则

冲突解决方案

概念

方法1：开放定址 open addressing —— 寻找空槽的技术

线性探测linear probing —— 向后逐个槽寻找的方法

再散列rehashing

方法2：数据项链Chaining

概念

映射抽象数据类型 ADT Map

字典

实现ADT Map：应用实例

散列算法分析

【数据结构与算法Python版学习笔记】查找与排序——散列、散列函数、区块链的更多相关文章

随机推荐

热门专题