python---哈希算法实现

# coding = utf-8

class Array:
    def __init__(self, size=32, init=None):
        self._size = size
        self._items = [init] * size

    def __getitem__(self, index):
        return self._items[index]

    def __setitem__(self, index, value):
        self._items[index] = value

    def __len__(self):
        return self._size

    def clear(self, value=None):
        for i in range(self._items):
            self._items[i] = value

    def __iter__(self):
        for item in self._items:
            yield item

class Slot:
    """
    定义一个哈希表数组的槽
    注意：一个槽有三种状态
    1. 从未被使用过，HashMap.UNUSED。 此槽没有被使用和冲突过，查找时只要找到UNUSED 就不用再继续探查了
    2. 使用过但是remove了， 此时是HashMap.EMPTY，该点后面的元素仍可能是有key
    3. 槽正在使用Slot 节点
    """
    def __init__(self, key, value):
        self.key = key
        self.value = value

class HashTable:
    # 表示slot 没有被使用过
    UNUSED = None
    # 使用过被删除
    EMPTY = Slot(None, None)

    def __init__(self):
        # 初始化，数组的每个元素都是UNUSED
        self._table = Array(8, init=HashTable.UNUSED)
        self.length = 0

    # 内置装饰器，把方法变成属性
    @property
    def __load_factor(self):
        return self.length / float(len(self._table))

    def __len__(self):
        return self.length

    def _hash(self, key):
        # abs函数返回绝对值 hash 是内置函数 _hash 直接使用内置的哈希函数，对数组的长度取模
        hash_str = abs(hash(key)) % len(self._table)
        # print(hash_str)
        return hash_str

    def _find_key(self, key):
        # 先用 _hash方法计算出槽的位置
        index = self._hash(key)
        # 先保存数组长度
        _len = len(self._table)

        # 如果这个槽不是没有被使用过
        while self._table[index] is not HashTable.UNUSED:
            # 如果这个槽是，曾经有过值，不过被删除了
            if self._table[index] is HashTable.EMPTY:
                # cpython 使用的一种解决哈希冲突的方式
                index = (index*5+1) % _len
                continue
            # 正在使用， 如果key值相同
            elif self._table[index].key == key:
                return index
            # 这里就只剩最后一种可能， 正在使用，但是key没有找到
            else:
                index = (index*5+1) % _len
        return None

    # 判断一个槽是否可以插入
    def _slot_can_insert(self, index):
        return self._table[index] is HashTable.EMPTY or self._table[index] is HashTable.UNUSED

    # 寻找一个空槽，用来插入
    def _find_slot_for_insert(self, key):
        index = self._hash(key)
        _len = len(self._table)
        while not self._slot_can_insert(index):
            index = (index*5+1) % _len
        # print(index)
        return index

    # 实现一个in操作符
    def __contains__(self, key):
        index = self._find_key(key)
        return index is not None

    def add(self, key, value):
        # 上面实现的in操作符
        if key in self:
            index = self._find_key(key)
            self._table[index].value = value
            # 返回False 表示没有执行插入操作，执行的是更新操作
            return False
        else:
            # 这两步可能会调用_slot_can_insert 函数，
            # 不管是哪种情况，EMPTY 或 是 UNUSEZD，
            # 都将这个节点声明为Slot类
            index = self._find_slot_for_insert(key)
            self._table[index] = Slot(key, value)
            self.length += 1
            # 当空间占用大于0.8 的时候，进行rehash 重新分配空间。
            if self.__load_factor >= 0.8:
                self._rehash()
            return True

    def _rehash(self):
        old_table = self._table
        new_size = len(self._table) * 2
        self._table = Array(new_size, HashTable.UNUSED)
        self.length = 0

        for slot in old_table:
            # 判断这个slot 是有值的
            if slot is not HashTable.UNUSED and slot is not HashTable.EMPTY:
                # 找到一个可以插入的槽
                index = self._find_slot_for_insert(slot.key)
                self._table[index] = slot
                self.length += 1

    def get(self, key, default=None):
        index = self._find_key(key)
        if index is None:
            return default
        else:
            return self._table[index].value

    def remove(self, key):
        index = self._find_key(key)
        if index is None:
            raise KeyError
        value = self._table[index].value
        self.length -= 1
        self._table[index] = HashTable.EMPTY
        return value

    # 遍历操作，python 字典默认遍历的是key，这里实现的也是遍历key
    def __iter__(self):
        for slot in self._table:
            if slot not in (HashTable.EMPTY, HashTable.UNUSED):
                yield slot.key

if __name__ == '__main__':
    h = HashTable()
    h.add('a', 0)
    h.add('b', 1)
    h.add('c', 2)
    assert len(h) == 3
    assert h.get('a') == 0
    assert h.get('b') == 1
    assert h.get('c') == 2
    assert h.get('sky') is None

    h.remove('a')
    assert h.get('a') is None
    assert sorted(list(h)) == ['b', 'c']

    for n in range(50):
        h.add(n, n)

    for i in range(50):
        assert h.get(n) == n

python---哈希算法实现的更多相关文章

感知哈希算法——Python实现【转】
转自:https://blog.csdn.net/m_buddy/article/details/78887248 版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原 ...
python数据结构与算法
最近忙着准备各种笔试的东西,主要看什么数据结构啊,算法啦,balahbalah啊,以前一直就没看过这些,就挑了本简单的<啊哈算法>入门,不过里面的数据结构和算法都是用C语言写的,而自己对p ...
Iconfinder 如何杜绝盗版，哈希算法检测图像重复
原地址:http://blog.jobbole.com/65914/ 本文由伯乐在线 - 小鱼翻译自 Silviu Tantos.欢迎加入技术翻译小组.转载请参见文章末尾处的要求. [伯乐在线导读 ...
以图搜图(一)：Python实现dHash算法（转）
近期研究了一下以图搜图这个炫酷的东西.百度和谷歌都有提供以图搜图的功能,有兴趣可以找一下.当然,不是很深入.深入的话,得运用到深度学习这货.Python深度学习当然不在话下. 这个功能最核心的东西就是 ...
os常用模块，json，pickle，shelve模块，正则表达式（实现运算符分离），logging模块，配置模块，路径叠加，哈希算法
一.os常用模块显示当前工作目录 print(os.getcwd()) 返回上一层目录 os.chdir("..") 创建文件包 os.makedirs('python2/bin ...
Python哈希表的例子：dict、set
dict(字典) Python内置了字典:dict的支持,dict全称dictionary,在其他语言中也称为map,使用键-值(key-value)存储,具有极快的查找速度. 和list比较,dic ...
ELFhash - 优秀的字符串哈希算法
ELFhash - 优秀的字符串哈希算法 2016年10月29日 22:12:37 阅读数:6440更多个人分类: 算法杂论算法精讲数据结构所属专栏: 算法与数据结构版权声明:本文为博主原创 ...
day22- hashlib模块-摘要算法(哈希算法)
# python的hashlib提供了常见的摘要算法,如md5(md5算法),sha1等等.摘要:digest # 摘要算法又称哈希算法.散列算法. # 它通过一个函数,把任意长度的数据(明文)转换为 ...
java单向加密算法小结(2)--MD5哈希算法
上一篇文章整理了Base64算法的相关知识,严格来说,Base64只能算是一种编码方式而非加密算法,这一篇要说的MD5,其实也不算是加密算法,而是一种哈希算法,即将目标文本转化为固定长度,不可逆的字符 ...
[基础技能] 安全技术——哈希算法密码破解之彩虹表(Rainbow Table)学习
1.基础知识刚刚学习过数字签名的相关知识,以及数字签名的伪造技术,而伪造数字签名归根结底就是密码破解的一个过程,然而直接破解的速度是非常缓慢的,所以有人想出一种办法,直接建立出一个数据文件,里面事先 ...

随机推荐

js实现在光标的位置添加内容
<!doctype html> <html> <head> <meta charset="utf-8"> <title> ...
css---遮罩层
<div id="body"> 显示页面的全部内容 <div id="open">打开弹框</div> </div&g ...
python doc格式转文本格式
首先python是不能直接读写doc格式的文件的,这是python先天的缺陷.但是可以利用python-docx (0.8.6)库可以读取.docx文件或.txt文件,且一路畅通无阻. 这样的话,可以 ...
Scrapy 框架，爬虫文件相关
Spiders 介绍由一系列定义了一个网址或一组网址类如何被爬取的类组成具体包括如何执行爬取任务并且如何从页面中提取结构化的数据. 简单来说就是帮助你爬取数据的地方内部行为 #1.生成初始的Re ...
mongoDB 文档操作_增
增加 / 插入 /保存单文档插入命令 db.collection.insertOne(doc) 功能向被 use 的数据库中插入数据实例 db.class.insertOne({"n ...
MongoDB介绍与安装
MongoDB 是一个介于关系数据库和非关系数据库之间的产品,是非关系数据库当中功能最丰富,最像关系数据库的.他支持的数据结构非常松散,是类似 json 的 bson 格式,因此可以存储比较复杂的数据 ...
virtual-dom
virtual-dom的历史 react最早研究virtual-dom,后来react火了之后,大家纷纷研究react的高性能实现,出现了2个流派,一是研究react算法的算法派,(virtual-d ...
maven 使用 log4j
Log4j是Apache的一个开源项目,通过使用Log4j,我们可以控制日志信息输送的目的地是控制台.文件.GUI组件,甚至是套接口服务器.NT的事件记录器.UNIX Syslog守护进程等:我们也可 ...
CentOS7使用firewalld防火墙配置端口
安装启用firewalld防火墙 CentOS7默认的防火墙是firewalld 如果没有firewalld防火墙,可以执行yum install firewalld 命令进行安装 firewalld ...
NEED TO DO
任务清单计算几何 KDtree 容斥后缀自动机套数据结构 FFT 四边形不等式/决策单调性优化欧拉路 KM算法 BM算法数论 min25筛后缀数组吉司机线段树生成函数 ...

python---哈希算法实现

python---哈希算法实现的更多相关文章

随机推荐

热门专题