Bloom Filter 算法

Bloom filter是由Burton Bloom 在1970年提出的,其后在P2P上得到了广泛的应用。Bloom filter 算法可用来查询某一数据是否在某一数据集合中。其长处是查询效率高、可节省空间。但其缺点是会存在一定的错误。因此Bloom filter 算法仅仅能应用于那些同意有一定错误的场合。可使用Bloom filter 算法的场合包含字典软件、分布式缓存、P2P网络和资源路由等等。

使用Bloom Filter我们能够推断一个元素是否在某一个集合中。假设这个集合是使用线性结构存储的话。其查找的时间复杂度是O(n);使用像二叉树或B-tree这种树形结构存储的话其查找的时间复杂度是O(logn)。而使用Bloom Filter在能够容忍一定错误率的情况下,其时间复杂度是O(1)。因此,与传统的权衡空间或时间的算法不同,Bloom Filter 极其巧妙。通过引入一定的错误率来换取时间和空间,在某些应用大大提高了性能。

Bloom Filter 算法应用

使用Bloom Filter算法查找某个元素是否属于某个集合是常数时间,并且Bloom Filter使用的是位数组,大大降低了空间。

尽管有一定的错误率。但对于那些同意有一定错误的场合则十分有效。

使用Bloom Filter还能够进行垃圾邮件过滤。由于垃圾邮件的数量是很巨大的。假设将所有的垃圾邮件的地址都存到数据库再进行垃圾邮件过滤,则其性能会很低下。

此时假设通过垃圾邮件的地址创建Bloom Filter,并把Bloom Filter的位数组放到内存中,那么在进行垃圾邮件过滤时就很高效了。

在HTTP缓存server中。能够使用Bloom Filter来加快推断Url是否在代理server的缓存中。

在代理server中,首先用缓存页面的Url通过哈希算法创建一个Bloom Filter的位数组。

假设有多个代理server。还能够将自己的位数组传送给其他代理server,以加快缓存查询速度。当有HTTP请求来时。就先在代理server中查看是否有此Url的缓存,假设没有,则查看是否在其他代理server中。再没有的话才会去主server提取页面。能够看出,使用Bloom Filter查询某Url是否在缓存中很快,假设出现错误的情况则最多到主server提取页面。并且由于Bloom Filter大大降低了空间的使用,使其在网络上传输更加高速。

在web爬虫中,也可使用Bloom Filter。当web爬虫处理了一个页面时,首先会通过Bloom Filter推断这个页面是否已经处理过,假设没处理过就对其进行处理并将其加到Bloom Filter中。在web爬虫假设出现误判,则最多对同一个Url多处理几次,并不影响web爬虫的性能。通过Bloom Filter反而大大提高了web爬虫的性能。

总而言之。Bloom Filter近些年来得到了广泛的应用,通过使用Bloom Filter能够加快对海量数据的查询,提高应用的性能。

Bloom Filter算法思想

Bloom Filter算法就是对于有n个元素的集合S={x1, x2,……,xn},我们用k个哈希函数(h1,h2,……,hn),分别将S中的每一个元素映射到一个m位的位数组(bm-1bm-2……b1b0)中。该位数组在初始化时所有置为0,每当用哈希函数映射到该位时则将该位置为1。对于已经置为1的位则不在反复置1。

比如。将S={x1,x2,x3}这个集合用3个哈希函数映射到一个14位的位数组中,如图所看到的:

能够看出。假设要查找一个元素是否在这个集合中。则仅仅要将该元素进行k次哈希。假设其相应的位所有为1的话则说明该元素在这个集合中。否则,仅仅要有当中一位为0。则说明该元素不在这个集合中。

如图所看到的,x2在集合中,而x4不在集合中。

Bloom Filter会产生错误也就是由于对某个元素进行k次哈希后相应的位所有为1,因此错误地将这个元素判定为在这个集合中,但实际上这个元素并不在这个集合中。如图所看到的。x5实际并非这个集合的元素:

要将一个元素增加这个集合很easy,仅仅要将这个元素进行k次哈希后将相应的位置1即可了。

但假设要从这个集合中删除一个元素,那么使用上面的位数组就不行了。由于假设仅仅是简单地将k次哈希后相应的位置0,而其他在这个集合中的元素也可能会映射到该位,这样这个集合就出错了。

因此,对于要进行删除的情况,则应该使用Bloom Filter的变体算法:计数Bloom Filter。

计数Bloom Filter位数组的每一个元素并非仅仅有1位。而可能是2位或很多其他位(视情况而定)。如图就是使用2位位数组的样例:

在这种情况下,假设要删除一个元素,则仅仅要将相应位的计数减1即可了。

删除了x2之后如图所看到的:

Bloom Filter算法分析

如今来分析一下标准的Bloom Filter的错误率。

刚開始时,m位的位数组初化为0,进行一次哈希并设某一位为1后位数组中某一位为0的概率为:(m-1)/m。而当对n个元素进行k次哈希后位数组中某一位为0的概率为:

p = ((m-1)/m)kn = (1 – 1/m)kn,

一个不在集合中的元素进行k次哈希后相应的位都为1。因此,Bloom Filter的错误率为:

f = (1 – (1 - 1/m)kn)k ,

由于

因此:

p = (1 – 1/m)kn = e-kn/m

即 k = -m·ln(p)/n,

f = (1 – e-kn/m)k

= exp(ln(1-e-kn/m)k)

= exp(kln(1-e-kn/m))

= exp(-m·ln(p)·ln(1-p)/n)

由于exp(x)是一个递增函数,为了使错误率f最小。那么-m·ln(p)·ln(1-p)/n就应该取最小值。

依据对称性法则能够看出。当p = 1/2时-m·ln(p)·ln(1-p)/n取得最小值,即k = -m·ln(p)/n = m·ln2 / n。

所以当哈希函数的个数k = m·ln2 / n时,能够使得错误率最小。

又由于p=1/2是对n个元素进行k次哈希后位数组中某一位为0的概率,此时位数组中0和1各占一半。即当让位数组有一半是空的时,能够使错误率最低。

$(function () {
$('pre.prettyprint code').each(function () {
var lines = $(this).text().split('\n').length;
var $numbering = $('

    ').addClass('pre-numbering').hide();
    $(this).addClass('has-numbering').parent().append($numbering);
    for (i = 1; i ').text(i));
    };
    $numbering.fadeIn(1700);
    });
    });

Bloom Filter 算法具体解释的更多相关文章

  1. Bloom Filter 算法简介 (增加 Counting Bloom Filter 内容)

    Bloom Filter的中文翻译叫做布隆过滤器,是1970年由布隆提出的.它实际上是一个很长的二进制向量和一系列随机映射函数.布隆过滤器可以用于检索一个元素是否在一个集合中.它的优点是空间效率和查询 ...

  2. Bloom Filter算法

    Bloom Filter算法详解 什么是布隆过滤器 布隆过滤器(Bloom Filter)是 1970 年由布隆提出的.它实际上是一个很长的二进制向量和一系列随机映射函数 (下面详细说),实际上你也可 ...

  3. php实现Bloom Filter

    Bloom Filter(BF) 是由Bloom在1970年提出的一种多哈希函数映射的高速查找算法,用于高速查找某个元素是否属于集合, 但不要求百分百的准确率. Bloom filter通经常使用于爬 ...

  4. 海量数据处理算法—Bloom Filter

    海量数据处理算法—Bloom Filter 1. Bloom-Filter算法简介 Bloom-Filter,即布隆过滤器,1970年由Bloom中提出.它可以用于检索一个元素是否在一个集合中. Bl ...

  5. 大数据处理算法--Bloom Filter布隆过滤

    1. Bloom-Filter算法简介 Bloom-Filter,即布隆过滤器,1970年由Bloom中提出.它可以用于检索一个元素是否在一个集合中. Bloom Filter(BF)是一种空间效率很 ...

  6. 【转】海量数据处理算法-Bloom Filter

    1. Bloom-Filter算法简介 Bloom Filter(BF)是一种空间效率很高的随机数据结构,它利用位数组很简洁地表示一个集合,并能判断一个元素是否属于这个集合.它是一个判断元素是否存在于 ...

  7. 笔试算法题(43):布隆过滤器(Bloom Filter)

    议题:布隆过滤器(Bloom Filter) 分析: BF由一个很长的二进制向量和一系列随机映射的函数组成,通过多个Hash函数将一个元素映射到一个Bit Array中的多个点,查询的时候仅当所有的映 ...

  8. Bloom Filter的算法

     Bloom Filter的算法: 为了降低冲突的概念,Bloom Filter使用了多个哈希函数,而不是一个.创建一个m位BitSet,先将所有位初始化为0,然后选择k个不同的哈希函数.第i个哈希函 ...

  9. Leveldb源码解析之Bloom Filter

    Bloom Filter,即布隆过滤器,是一种空间效率很高的随机数据结构. 原理:开辟m个bit位数组的空间,并全部置零,使用k个哈希函数将元素映射到数组中,相应位置1.如下图,元素K通过哈希函数h1 ...

随机推荐

  1. JavaScripts学习日记——DOM

    DOM Document Object Model 文档对象模型  整合js和html css.控制html文档行为.DOM就是把页面当中所有内容全部封装成对象.HTML文档中万物皆对象.1.对象的分 ...

  2. Gradle的简介、安装与配置

    Gradle介绍 Gradle是一个基于JVM的构建工具,它提供了: 像Ant一样,通用灵活的构建工具,对Ant的任务做了很好的集成 同Maven一样是基于约定的构建框架 强大的多工程构建支持.有广泛 ...

  3. Java 坦克小游戏心得

    原本是闲得慌无聊才去尝试做这个项目的,因为小时候玩小霸王的游戏机,那个时候经常玩这个游戏吧,特别是喜欢那种自定义地图的模式,觉得自由度非常不错.总之关于这个游戏,想说的一大堆.鉴于能有个空闲的时间,打 ...

  4. Sql Server同步之订阅

    1.新建一个订阅 2.订阅新建完成之后,先选择发布端 3.选择需要同步的组 4.选择目标数据库 5.选择链接发布端方式,采用sql server login 6.选择执行同步的计划 7.选择是立马执行 ...

  5. RDD 重新分区,排序 repartitionAndSortWithinPartitions

    需求:将rdd数据中相同班级的学生分到一个partition中,并根据分数降序排序. 此实例用到的repartitionAndSortWithinPartitions是Spark官网推荐的一个算子,官 ...

  6. ajax初学

    //参数说明url:请求文件地址//fnSucc:请求成功执行的函数,请求成功的条件为readyState状态码为4:且status状态码为200,status状态为浏览器请求返回的状态码//在fnS ...

  7. action找不到

    错误: {"name":"Not Found","message":"Unable to resolve the request: ...

  8. Android用gif做启动页

    公司的一个app的启动页想改为gif图,之前没有在android中加入过gif,所以赶紧饿补! 前言 我们都知道ImageView是不能完美加载Gif格式的图片,如果我们在ImageView中src指 ...

  9. cf C. Jeff and Rounding

    http://codeforces.com/contest/352/problem/C 题意:给予N*2个数字,改变其中的N个向上进位,N个向下进位,使最后得到得数与原来数的差的绝对值最小 对每一个浮 ...

  10. DPI情况下处理

    1. 字体不要跟着变大小,那就要使用setPixe,不要使用setPointSize 2. 图片可设置QPixmap::setDevicePixelRatio http://doc.qt.io/qt- ...