什么是布隆过滤器?
它实际上是一个很长的二进制向量和一系列随机映射函数。把一个目标元素通过多个hash函数的计算,将多个随机计算出的结果映射到不同的二进制向量的位中,以此来间接标记一个元素是否存在于一个集合中。
布隆过滤器可以做什么?
布隆过滤器可以用于检索一个元素是否在一个集合中。它的优点是空间效率和查询时间都比一般的算法要好的多,缺点是有一定的误识别率和删除困难。
布隆过滤器特点
如果布隆过滤器显示一个元素不存在于集合中,那么这个元素100%不存在与集合当中
如果布隆过滤器显示一个元素存在于集合中,那么很有可能存在,可能性取决于对布隆过滤器的定义(BF.RESERVE {key} {error_rate} {capacity})

布隆过滤器的原理图,这个就很容易理解了。

Redis中的布隆过滤器实现(rebloom模块扩展)

下载并编译
git clone git://github.com/RedisLabsModules/rebloom
cd rebloom
make
配置文件中加载rebloom
loadmodule /your_path/rebloom.so
重启Redis服务器即可
./bin/redis-cli -h 127.0.0.1 -p 6379 -a ****** shutdown
./bin/redis-server redis.conf

rebloom在Redis中的使用

bloom filter定义

BF.RESERVE {key} {error_rate} {capacity}
使用给定的期望错误率和初始容量创建空的Bloom过滤器(如果不存在的话)。如果打算向Bloom过滤器中添加许多项,则此命令非常有用,否则只能使用BF.ADD 添加项。
初始容量和错误率将决定过滤器的性能和内存使用情况。一般来说,错误率越小(即对误差的容忍度越低),每个过滤器条目的空间消耗就越大。

bloom filter基本操作

1,BF.ADD {key} {item}
单条添加元素
向Bloom filter添加一个元素,如果该key不存在,则创建该key(过滤器)。
如果项是新插入的,则为“1”;如果项以前可能存在,则为“0”。

2,BF.MADD {key} {item} [item...]
批量添加元素
布尔数(整数)的数组。返回值为0或1的范围的数据,这取决于是否将相应的输入元素新添加到过滤器中,或者是否已经存在。

3,BF.EXISTS {key} {item}
判断单个元素是否存在
如果存在,返回1,否则返回0

4,BF.MEXISTS {key} {item} [item...]
判断多个元素是否存在
布尔数(整数)的数组。返回值为0或1的范围的数据,这取决于是否将相应的元是否已经存在于key中。

  1. 127.0.0.1:> bf.reserve bloom_filter_test 0.0000001
  2. OK
  3. 127.0.0.1:> bf.reserve bloom_filter_test 0.0000001
  4. (error) ERR item exists
  5. 127.0.0.1:>
  6. 127.0.0.1:>
  7. 127.0.0.1:> bf.add bloom_filter_test key1
  8. (integer)
  9. 127.0.0.1:> bf.add bloom_filter_test key2
  10. (integer)
  11. 127.0.0.1:>
  12. 127.0.0.1:> bf.madd bloom_filter_test key2 key3 key4 key5
  13. ) (integer)
  14. ) (integer)
  15. ) (integer)
  16. ) (integer)
  17. 127.0.0.1:> bf.exists bloom_filter_test key2
  18. (integer)
  19. 127.0.0.1:> bf.exists bloom_filter_test key3
  20. (integer)
  21. 127.0.0.1:> bf.mexists bloom_filter_test key3 key4 key5
  22. ) (integer)
  23. ) (integer)
  24. ) (integer)
  25. 127.0.0.1:>

5,bf.insert

bf.insert{key} [CAPACITY {cap}] [ERROR {ERROR}] [NOCREATE] ITEMS {item…}
该命令将向bloom过滤器添加一个或多个项,如果它还不存在,则默认情况下创建它。有几个参数可用于修改此行为。
key:过滤器的名称
capacity:如果指定了,应该在后面加上要创建的过滤器的所需容量。如果过滤器已经存在,则忽略此参数。如果自动创建了过滤器,并且没有此参数,则使用默认容量(在模块级指定)。见bf.reserve。
error:如果指定了,后面应该跟随着新创建的过滤器的错误率(如果它还不存在)。如果自动创建过滤器而没有指定错误,则使用默认的模块级错误率。见bf.reserve。
nocreate:如果指定,表示如果过滤器不存在,就不应该创建它。如果过滤器还不存在,则返回一个错误,而不是自动创建它。如果需要在创建过滤器和添加过滤器之间进行严格的分离,可以使用这种方法。将NOCREATE与容量或错误一起指定是一个错误。
item:指示要添加到筛选器的项的开头。必须指定此参数。

  1. 127.0.0.1:> bf.insert bloom_filter_test2 items key1 key2 key3
  2. ) (integer)
  3. ) (integer)
  4. ) (integer)
  5. 127.0.0.1:> bf.insert bloom_filter_test2 items key1 key2 key3
  6. ) (integer)
  7. ) (integer)
  8. ) (integer)
  9. 127.0.0.1:> bf.insert bloom_filter_test2 capacity error 0.00001 nocreate items key1 key2 key3
  10. ) (integer)
  11. ) (integer)
  12. ) (integer)
  13. 127.0.0.1:>
  14. 127.0.0.1:> bf.insert bloom_filter_test2 capacity error 0.00001 nocreate items key4 key5 key6
  15. ) (integer)
  16. ) (integer)
  17. ) (integer)
  18. 127.0.0.1:>

bf持久化操作

BF.SCANDUMP {key} {iter}

对bloom过滤器进行增量保存。这对于不能适应常规save和restore模型的大型bloom filter非常有用。
第一次调用这个命令时,iter的值应该是0。这个命令将返回连续的(iter, data)对,直到(0,NULL),以表示完成
python伪代码演示:

  1. chunks = []
  2. iter = 0
  3. while True:
  4. iter, data = BF.SCANDUMP(key, iter)
  5. if iter == 0:
  6. break
  7. else:
  8. chunks.append([iter, data])
  9.  
  10. # Load it back
  11. for chunk in chunks:
  12. iter, data = chunk
  13. BF.LOADCHUNK(key, iter, data)
  1. bf.scandump示例
  1. 127.0.0.1:> bf.scandump bloom_filter_test2
  2. ) (integer)
  3. ) "\x06\x00\x00\x00\x00\x00\x00\x00\x01\x00\x00\x00\x04\x00\x00\x00\x80\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x06\x00\x00\x00\x00\x00\x00\x00{\x14\xaeG\xe1z\x84?\x88\x16\x8a\xc5\x8c+#@\a\x00\x00\x00j\x00\x00\x00\n"
  4. 127.0.0.1:> bf.scandump bloom_filter_test2
  5. ) (integer)
  6. ) "\x00\x00\x00\x00\xa2\x00\x00\x00\x00\x00\x00B\x01\x00\x00\x00\x00\x00\x00\x00\x80\x00\x00 \x00\x00\b\x00\x00\x00\x00\b\x00\x00@\x00\x01\x04\x18\x02\x00\x00\x00\x82\x00\x00\x80@\x00\b\x00\x00\x00\x00 \x00\x00@\x00\x00\x00\x00\x18\b\x00\b\x00\b\x00\x80B\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x80\x00\x00\x00\x00 (\x00\x00\x00\x00@\x00\x00\x00\x00@\x00\x00\x04\x00\x00\x00\x00\x00\x00\x00\x80\x00\x00\x00\x80\x00\x00@\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\b"
  7. 127.0.0.1:> bf.scandump bloom_filter_test2
  8. ) (integer)
  9. ) ""
  10. 127.0.0.1:>

blool filter数据类型的属性

bf.debug

这里可以看到,随着bloom filter元素的增加,其空间容量也在不断地增加

  1. 127.0.0.1:> bf.debug bloom_filter_test
  2. ) "size:5"
  3. ) "bytes:4194304 bits:33554432 hashes:24 hashwidth:64 capacity:1000200 size:5 ratio:1e-07"
  4. 127.0.0.1:>
  5. 127.0.0.1:>
  6. 127.0.0.1:> bf.debug bloom_filter_test
  7. ) "size:128955"
  8. ) "bytes:4194304 bits:33554432 hashes:24 hashwidth:64 capacity:1000200 size:128955 ratio:1e-07"
  9. 127.0.0.1:>
  10. 127.0.0.1:>
  11. 127.0.0.1:> bf.debug bloom_filter_test
  12. ) "size:380507"
  13. ) "bytes:4194304 bits:33554432 hashes:24 hashwidth:64 capacity:1000200 size:380507 ratio:1e-07"
  14. 127.0.0.1:>
  15. 127.0.0.1:>
  16. 127.0.0.1:> bf.debug bloom_filter_test
  17. ) "size:569166"
  18. ) "bytes:4194304 bits:33554432 hashes:24 hashwidth:64 capacity:1000200 size:569166 ratio:1e-07"
  19. 127.0.0.1:>
  20. 127.0.0.1:>
  21. 127.0.0.1:> bf.debug bloom_filter_test
  22. ) "size:852316"
  23. ) "bytes:4194304 bits:33554432 hashes:24 hashwidth:64 capacity:1000200 size:852316 ratio:1e-07"
  24. 127.0.0.1:>
  25. 127.0.0.1:>
  26. 127.0.0.1:> bf.debug bloom_filter_test
  27. ) "size:1000005"
  28. ) "bytes:4194304 bits:33554432 hashes:24 hashwidth:64 capacity:1000200 size:1000005 ratio:1e-07"
  29. 127.0.0.1:>

关于布隆过滤器数据类型的空间分析

redis的bigkeys选项可以分析整个实例中的big keys信息,但是无法分析出MBbloom--类型的key值得大小

这里基于Redis的debug object功能,实现对MBbloom--类型的key的统计(没有找到怎么用Python执行bf.debug原生命令的执行方式)。

  1. import redis
  2. import sys
  3. import time
  4. import random
  5.  
  6. def get_bf_bigkeys():
  7. try:
  8. redis_conn = redis.StrictRedis(host='127.0.0.1', port=, db=, password='******')
  9. except:
  10. print("connect redis error")
  11. sys.exit()
  12. dict_key = {}
  13. cursor =
  14. while cursor != :
  15. if cursor == :
  16. key = redis_conn.scan(cursor=, match='*', count=)
  17. else:
  18. key = redis_conn.scan(cursor=cursor,match='*', count=)
  19. cursor = key[]
  20. if len(key[]) > :
  21. for var in key[]:
  22. if str(redis_conn.type(var), encoding = "utf-8") == 'MBbloom--':
  23. info = redis_conn.debug_object(var)
  24. dict_key[var] = float(info['serializedlength']) / / # byte ---> mb
  25.  
  26. res = sorted(dict_key.items(), key=lambda dict_key: dict_key[], reverse=True)
  27. for i in range( if len(res) > else len(res)):
  28. print(res[i])
  29.  
  30. if __name__ == "__main__":
  31. get_bf_bigkeys()

统计结果示例如下

  1. [root@tencent02 redis8001]# python3 static_big_bf_keys.py
  2. (b'bloom_filter_test', 4.000059127807617)
  3. (b'my_bf2', 0.04577445983886719)
  4. (b'bloom_filter_test2', 0.00014019012451171875)
  5. (b'my_bf1', 0.0001220703125)
  6. [root@tencent02 redis8001]#

参考:

https://redislabs.com/blog/rebloom-bloom-filter-datatype-redis/

https://oss.redislabs.com/redisbloom/Bloom_Commands/

基于Redis扩展模块的布隆过滤器使用的更多相关文章

  1. 详细解析Redis中的布隆过滤器及其应用

    欢迎关注微信公众号:万猫学社,每周一分享Java技术干货. 什么是布隆过滤器 布隆过滤器(Bloom Filter)是由Howard Bloom在1970年提出的一种比较巧妙的概率型数据结构,它可以告 ...

  2. Redis中的布隆过滤器及其应用

    什么是布隆过滤器 布隆过滤器(Bloom Filter)是由Howard Bloom在1970年提出的一种比较巧妙的概率型数据结构,它可以告诉你某种东西一定不存在或者可能存在.当布隆过滤器说,某种东西 ...

  3. Redis()- 布隆过滤器

    一.布隆过滤器 布隆过滤器:一种数据结构.由二进制数组(很长的二进制向量)组成的.布隆过滤器可以用于检索一个元素是否在一个集合中.它的优点是空间效率和查询时间都比一般的算法要好的多,缺点是有一定的误识 ...

  4. Spark布隆过滤器(bloomFilter)

    数据过滤在很多场景都会应用到,特别是在大数据环境下.在数据量很大的场景实现过滤或者全局去重,需要存储的数据量和计算代价是非常庞大的.很多小伙伴第一念头肯定会想到布隆过滤器,有一定的精度损失,但是存储性 ...

  5. Redis: 缓存过期、缓存雪崩、缓存穿透、缓存击穿(热点)、缓存并发(热点)、多级缓存、布隆过滤器

    Redis: 缓存过期.缓存雪崩.缓存穿透.缓存击穿(热点).缓存并发(热点).多级缓存.布隆过滤器 2019年08月18日 16:34:24 hanchao5272 阅读数 1026更多 分类专栏: ...

  6. 浅谈redis的HyperLogLog与布隆过滤器

    首先,HyperLogLog与布隆过滤器都是针对大数据统计存储应用场景下的知名算法. HyperLogLog是在大数据的情况下关于数据基数的空间复杂度优化实现,布隆过滤器是在大数据情况下关于检索一个元 ...

  7. 09 redis中布隆过滤器的使用

    我们在使用新闻客户端看新闻时,它会给我们不停地推荐新的内容,它每次推荐时要去重,去掉那些已经看过的内容.问题来了,新闻客户端推荐系统如何实现推送去重的? 会想到服务器记录了用户看过的所有历史记录,当推 ...

  8. Redis布隆过滤器和布谷鸟过滤器

    一.过滤器使用场景:比如有如下几个需求:1.原本有10亿个号码,现在又来了10万个号码,要快速准确判断这10万个号码是否在10亿个号码库中? 解决办法一:将10亿个号码存入数据库中,进行数据库查询,准 ...

  9. 从位图到布隆过滤器,C#实现

    前言 本文将以 C# 语言来实现一个简单的布隆过滤器,为简化说明,设计得很简单,仅供学习使用. 感谢@时总百忙之中的指导. 布隆过滤器简介 布隆过滤器(Bloom filter)是一种特殊的 Hash ...

随机推荐

  1. IO 单个文件的多线程拷贝

    package FileCopyThread; //自建的包,根据个人调整 import java.io.File; import java.io.FileNotFoundException; imp ...

  2. Redis 命令执行过程(下)

    在上一篇文章中<Redis 命令执行过程(上)>中,我们首先了解 Redis 命令执行的整体流程,然后细致分析了从 Redis 启动到建立 socket 连接,再到读取 socket 数据 ...

  3. HDU5394 Bomb

    题目:http://acm.hdu.edu.cn/showproblem.php?pid=5934 There are NN bombs needing exploding. Each bomb ha ...

  4. FPGA_VIP_V101 视频开发板 深入调试小结

    FPGA_VIP_V101 推出已经有半年有余,各项功能例程已移植完毕,主要参考crazybingo例程进行移植和结合开发板设计了几个实例例程 主要包含: 硬件配置: FPGA:EP4CE6E22C8 ...

  5. linux—chmod

    chmod -options -c 只输出被改变的文件信息      -f , --silent, --quite   当chmod不能改变文件模式时,不通知用户      -R   递归       ...

  6. Day 07 字符串内置方法和爬虫基础3

    目录 异常处理 LeetCode使用之两数之和(示例) 字符串内置方法 爬虫基础3 selenium基本使用 selenium模拟百度登录 selenium爬取京东商品信息 异常处理 try: pri ...

  7. Android WebView 基本设置与H5 交互

    mWebView.setDrawingCacheEnabled(true); WebChromeClient webChromeClient = new WebChromeClient(); mWeb ...

  8. dev gridcontrol绘制页脚

    gridView.OptionsView.ShowFooter = true;//启用显示页脚 //索引为1的列 gridView.Columns[1].SummaryItem.DisplayForm ...

  9. 慢sql查询优化

    explain使用介绍 id:执行编号,标识select所属的行.如果在语句中没子查询或关联查询,只有唯一的select,每行都将显示1.否则,内层的select语句一般会顺序编号,对应于其在原始语句 ...

  10. Linux服务器部署.Net Core笔记:三、CentOS 7上安装.NetCore运行环境

    1.要开始安装 .NET,您需要注册 Microsoft 签名密钥并添加 Microsoft 产品提要.每台机器只需要做一次. 打开命令提示符并运行以下命令:sudo rpm -Uvh https:/ ...