因为要做过滤器相关内容,最近读了一些过滤器方面的文章,准备从中提取主要思想写几篇博客。

作为这系列的第一篇文章,首先得讲一下过滤器是干什么用的。从历史发展来看,过滤器最早出现是作为散列表的替代品,那么功能就要和散列表差不多,主要是查询当前的元素是否在我已知的集合里。但是随着数据量不断增大,散列表相对来说占用空间过大,而空间占用小的查找树的\(O(logn)\)时间复杂度又太高。于是有人想出来能否用正确率做代价,换取较高的查询速度和较小的存储占用,这就是过滤器。当然,这里所允许的错误仅限假阳性,例如我们做一个关于代理ip地址的过滤器,当有一个不是代理的ip地址发来,我们也许会把它错认成是代理ip,但是我们不会允许一个代理ip被错认成非代理ip,简单的说,就是宁可错杀,不可放过。

作为第一篇,按照历史角度,先说布隆过滤器(bloom filter)。原版的布隆过滤器很朴素,只支持插入和查询两个操作,下面我们看它的原理。

首先,布隆过滤器申请了一片空间,存了一个数组,每个元素都只有1个bit,共有N个元素,初始化每个值都为0。如下图所示。(实际并没有index这一行,仅仅是为了方便观看)

插入操作

下一步就是如何插入数据。布隆过滤器要求你事先定义K个Hash函数,这K个Hash函数都是从定义域映射到上图中的index空间(即N)。通过这K个Hash函数,我们对一条新的数据x,计算出\(h_0(x),h_1(x),....h_{k-1}(x)\),这样就得到了K个地址。我们将这K个地址的比特位置1.这里就有值得注意的地方,因为我们的过滤器的大小远远小于数据集大小,那么常常会有Hash之后映射到同一个位置的数据,不要担心,照常置1。

下面的例子是K=3,\(h_0(x)=2,h_1(x)=5,h_2(x)=7\)。如图所示

查找操作

当插入其他一些数据后,过滤器可能变成下图所示,我们不关心中间经历了什么。


我们现在查找刚才第一次插入的数据是否在过滤器中,那么同样计算\(h_0(x),h_1(x),h_2(x)\),算出3个地址,2,5,7,去表中查找,若3个地址的数据都为1,则判断在过滤器中,否则判断不在过滤器中。

算法和数据结构都很简单,我们下面说的是对布隆过滤器的一些分析和题外话,有兴趣的读者可以继续阅读。

我们在过滤器上很关注三个指标,一个是操作的时间复杂度,一个是平均每条数据占用的比特数,最后是错误率。下面我们分析一下。

时间复杂度

布隆过滤器上的两个操作,插入和查询,都只是计算一下K个Hash函数的值,然后进行K次访存操作。那么时间上很明显是\(O(K)\),其实不算也知道,一个替代Hash表的过滤器,操作代价必须是常数级别。

平均每条数据占用的比特数 and 错误率

直觉上,很容易得出这两个衡量指标其实是矛盾的,当想要较低错误率时就要增大空间;想要减小占用空间时,那么由于Hash碰撞的次数变多,错误率也会提高。我们在这里将错误率作为已知来计算平均每条数据占用的比特数。为什么这么做?因为在实际应用中我们可以对过滤器设定一个错误率作为标准,通常情况下我们对这一点要求更严格。

我们设数组总大小为\(N\),插入n条数据后表中还为0的数据占全部的比例为\(\phi\)。那么

\(\phi = (1-K / N)^n\)-------------------------(1)
读者可以想想为什么不是\(K * n / N\),在这里,我们其实省略了Hash函数默认是随机分布到全空间的。

设错误率为\(P\),

\(P = (1-\phi)^K\) ----------------------------(2)
错误只发生随机分布到K个地址,结果在K个地址都有数据用了,那么不管你是否在过滤器中,布隆过滤器都会判断你在其中,这就是错误来源。

然后我们对(1)式两边取对数

\(log_2^\phi = log_2^{(1-K/N)^n}\)
使用换底公式
\(log_2^\phi = log_2^{(1-K/N)^n} = log_e^{(1-d/N)^n} * log_2^e = -n * K / N *log_2^e\) ---(3)

我们要求的平均每条数据占用的比特数\(N(bit) / n = log_2^{1/P} * log_2^e / (log_2^\phi * log_2^{(1-\phi)})\),通过极值点计算可以得到分母最大时,\(\phi=0.5\),分母为1,则结果为\(N/n = log_2^{1/P} / ln2\)

可以看到,每条数据占用的比特数与错误率的对数成反比。

之后我会先把几个不同思想的过滤器介绍一遍,最后会有关于布隆过滤器的一些变形

过滤器系列(一)—— Bloom filter的更多相关文章

  1. 浅谈布隆过滤器Bloom Filter

    先从一道面试题开始: 给A,B两个文件,各存放50亿条URL,每条URL占用64字节,内存限制是4G,让你找出A,B文件共同的URL. 这个问题的本质在于判断一个元素是否在一个集合中.哈希表以O(1) ...

  2. Bloom Filter 布隆过滤器

    Bloom Filter 是由伯顿.布隆(Burton Bloom)在1970年提出的一种多hash函数映射的快速查找算法.它实际上是一个很长的二进制向量和一些列随机映射函数.应用在数据量很大的情况下 ...

  3. 【转】Bloom Filter布隆过滤器的概念和原理

    转自:http://blog.csdn.net/jiaomeng/article/details/1495500 之前看数学之美丽,里面有提到布隆过滤器的过滤垃圾邮件,感觉到何其的牛,竟然有这么高效的 ...

  4. 布隆过滤器(Bloom Filter)详解——基于多hash的概率查找思想

    转自:http://www.cnblogs.com/haippy/archive/2012/07/13/2590351.html   布隆过滤器[1](Bloom Filter)是由布隆(Burton ...

  5. 布隆过滤器(Bloom Filter)的原理和实现

    什么情况下需要布隆过滤器? 先来看几个比较常见的例子 字处理软件中,需要检查一个英语单词是否拼写正确 在 FBI,一个嫌疑人的名字是否已经在嫌疑名单上 在网络爬虫里,一个网址是否被访问过 yahoo, ...

  6. 布隆过滤器(Bloom Filter)

    一.布隆过滤器介绍 Bloom Filter是一种空间效率很高的随机数据结构,Bloom Filter可以看做是对bit-map的扩展,它的原理如下: 当一个元素被加入集合时,通过K个Hash函数将这 ...

  7. [转载] 布隆过滤器(Bloom Filter)详解

    转载自http://www.cnblogs.com/haippy/archive/2012/07/13/2590351.html   布隆过滤器[1](Bloom Filter)是由布隆(Burton ...

  8. 布隆过滤器(Bloom Filter)详解

    直观的说,bloom算法类似一个hash set,用来判断某个元素(key)是否在某个集合中.和一般的hash set不同的是,这个算法无需存储key的值,对于每个key,只需要k个比特位,每个存储一 ...

  9. 海量信息库,查找是否存在(bloom filter布隆过滤器)

    Bloom Filter(布隆过滤器) 布隆过滤器用于测试某一元素是否存在于给定的集合中,是一种空间利用率很高的随机数据结构(probabilistic data structure),存在一定的误识 ...

随机推荐

  1. c#中类和对象详解

    1.1 类和对象 类 (class) 是最基础的 C# 类型.类是一个数据结构,将状态(字段)和操作(方法和其他函数成员)组合在一个单元中.类为动态创建的类实例 (instance) 提供了定义,实例 ...

  2. codeforces#505--A Doggo Recoloring

    A. Doggo Recoloring time limit per test 1 second memory limit per test 256 megabytes input standard ...

  3. 跟我学Makefile(四)

    使用函数:函数调用,很像变量的使用,也是以“$”来标识的,其语法如下: $(<function> <arguments>) 或是 ${<function> < ...

  4. samba文件共享服务配置一(共2节)

    一.samba服务简介 Samba是在Linux和UNIX系统上实现SMB协议的一个免费软件,由服务器及客户端程序构成.SMB(Server Messages Block,信息服务块)是一种在局域网上 ...

  5. Mbps MB/S Mb/s

    以前都没有注意这几个的区别,今天百度科普了一下 所谓 10M 带宽,其实是指 10Mbps (兆比特) 1.平时所说的10m带宽,其实是指 10Mbps (兆比特)bit是计算机的最小位单位,1byt ...

  6. Bootstrap table前端分页(ssm版)

    说明bootstrap table可以前端分页,也可以后端sql用limit分页.前端分页下性能和意义都不大,故一般情况下不用这种,请看我的另一篇后端分页的博客源码下载地址:https://git.o ...

  7. Uva11374 Dijkstra

    机场快线是市民从市内去机场的首选交通工具.机场快线分为经济线和商业线两种,线路.速度和价格都不同,你有一张商业线车票,可以坐一站商业线,而其他时候,只能乘坐经济线.假设换乘时间忽略不计,你的任务是找一 ...

  8. WPF usercontrol 自定义依赖属性

    1.依赖属性不同意一般属性,一般属性主要定义在对象中,而依赖属性是存在一个特殊的依赖属性表中.2.当我们触发改变值时,需要通过SetValue这种方式进行触发. UserControl1.xaml: ...

  9. Google发布机器学习平台Tensorflow游乐场~带你玩神经网络(转载)

    Google发布机器学习平台Tensorflow游乐场-带你玩神经网络 原文地址:http://f.dataguru.cn/article-9324-1.html> 摘要: 昨天,Google发 ...

  10. 20145122 《Java程序设计》第4周学习总结

    教材学习内容总结 第六章 1.在java中,子类只能继承一个父类. 2.在java中,继承时使用extends关键字,private成员也会被继承. 3.检查多态语法逻辑是否正确,方式是从=号右边往左 ...