Bloom Filter一般用于数据的去重计算，近似于HashSet的功能；但是不同于Bitmap（用于精确计算），其为一种估算的数据结构，存在误判（false positive）的情况。

1. 基本原理

Bloom Filter能高效地表征数据集合$S = \lbrace x_1 ,x_2 ,...,x_n \rbrace$，判断某个数据是否属于这个集合。其基本思想如下：用长度为$m$的位数组$A$来存储集合信息，同时是有$k$个独立的hash函数$h_i(1\le i \le k)$将数据映射到位数组空间。具体流程如下：

将长度为$m$的位数组全置为0；
对于数据$x \in S$，依次计算其$k$个hash函数值$h_i(x)=w，且1\le i \le k, 1 \le w \le m$，将位数组中的第$a$位bit置为1，即A[w]=1.

当查询数据$y$是否属于集合$S$时，计算其$k$个hash函数值，如果$h_i(y)$对应的位数组均为1，则数据$y$属于集合$S$；反之，则不属于。

2. 相关计算

在上述判断中，可能存在误判（false positive, FP），比如某数的$k$个hash函数值可能属于集合$S$中某几个数$k$个hash函数值组成的集合。显然，误判率跟集合大小$n$、位数组大小$m$、hash函数的个数$k$有关；在其他条件不变的情况下，若$n$越大（$m$越小，或$k$越多），则误判率越高。误判率估算公式如下：

\[P_{fp} \approx (1-e^{-kn/m})^k
\]

在实际的场景中，常常是已知集合大小$n$，预设误判率$P_{fp}$，需要计算位数组大小$m$、hash函数的个数$k$。通过一系列的数学推导，可得到如下公式：

\[m= - \frac{n\ln P_{fp}}{(\ln 2)^2}
\]

\[k=\frac{m}{n}\ln 2
\]

详细的数学推导可参看相关文档。

3. 实战

Bloom Filter的Java实现有Guava、stream-lib，Scala实现有breeze、bloom-filter-scala。采用breeze库的Distinct Count实现如下：

import breeze.util.BloomFilter

val bf = BloomFilter.optimallySized[Int](5, 0.01)

val arr = Array(1, 3, 4, 5, 1, 2, 6, 3, 1)

var cnt = 0

arr.foreach { t =>

  bf.contains(t) match {

    case false => cnt += 1; bf.+=(t)

    case _ =>

  }

}

println(arr.distinct.length) // 6

println(cnt) // 6

从上面的Scala代码中，不难发现：在Distinct Count计算过程中，需要定义一个global变量，逐一用于对每个不属于集合元素进行计算。显然，在分布式计算中，这种方法不太适用；因为global变量没法做到实时的传递更新。因此，另一种估算算法HyperLogLog，拥有优秀的可加性、易于并行化，在大数据的场景下应用广泛——Spark、Kylin中的近似Distinct Count便是基于此。

4. 参考资料

[1] Broder, Andrei, and Michael Mitzenmacher. "Network Applications of Bloom Filters: A Survey." Internet Mathematics 1.4 (2011): 485-509.

[2] 张俊林, 《大数据日知录》.

Bloom Filter：海量数据的HashSet的更多相关文章

实例学习Bloom Filter
0. 科普1. 为什么需要Bloom Filter2. 基本原理3. 如何设计Bloom Filter4. 实例操作5. 扩展 0. 科普 Bloom Filter是由Bloom在1970年提出的一种 ...
Bloom Filter 算法具体解释
Bloom Filter 算法 Bloom filter是由Burton Bloom 在1970年提出的,其后在P2P上得到了广泛的应用.Bloom filter 算法可用来查询某一数据是否在某一数据 ...
Bloom Filter (海量数据处理)
什么是Bloom Filter 先来看这样一个爬虫相关问题:文件A中有10亿条URL,每条URL占用64字节,机器的内存限制是4G,现有一个URL,请判断它是否存在于文件A中(爬过的URL无需再爬). ...
Bloom Filter的应用
1.布隆过滤器是什么? 又快又小的处理方法布隆过滤器(Bloom Filter):是一种空间效率极高的概率型算法和数据结构,用于判断一个元素是否在集合中(类似Hashset). 它的核心一个很长的二 ...
php实现Bloom Filter
Bloom Filter(BF) 是由Bloom在1970年提出的一种多哈希函数映射的高速查找算法,用于高速查找某个元素是否属于集合, 但不要求百分百的准确率. Bloom filter通经常使用于爬 ...
布隆过滤器（Bloom Filter）原理以及应用
应用场景主要是解决大规模数据下不需要精确过滤的场景,如检查垃圾邮件地址,爬虫URL地址去重,解决缓存穿透问题等. 布隆过滤器(Bloom Filter)是1970年由布隆提出的.它实际上是一个很长的 ...
布隆过滤器 Bloom Filter 2
date: 2020-04-01 17:00:00 updated: 2020-04-01 17:00:00 Bloom Filter 布隆过滤器之前的一版笔记点此跳转 1. 什么是布隆过滤器本 ...
探索C#之布隆过滤器(Bloom filter)
阅读目录: 背景介绍算法原理误判率 BF改进总结背景介绍 Bloom filter(后面简称BF)是Bloom在1970年提出的二进制向量数据结构.通俗来说就是在大数据集合下高效判断某个成员是 ...
Bloom Filter 布隆过滤器
Bloom Filter 是由伯顿.布隆(Burton Bloom)在1970年提出的一种多hash函数映射的快速查找算法.它实际上是一个很长的二进制向量和一些列随机映射函数.应用在数据量很大的情况下 ...

随机推荐

excel 日期/数字格式不生效需要但双击才会生效的解决办法
原因: Excel2007设置过单元格格式后,并不能立即生效必须挨个双击单元格,才能生效.数据行很多.效率太低. 原因:主要是一些从网上拷贝过来的日期或数字excel默认为文本格式或特殊-中文数字格式 ...
.NET 对接JAVA 使用Modulus,Exponent RSA 加密
最近有一个工作是需要把数据用RSA发送给Java 虽然一开始标准公钥 net和Java RSA填充的一些算法不一样但是后来这个坑也补的差不多了具体可以参考 http://www.cnblogs. ...
Android数据存储之Android 6.0运行时权限下文件存储的思考
前言: 在我们做App开发的过程中基本上都会用到文件存储,所以文件存储对于我们来说是相当熟悉了,不过自从Android 6.0发布之后,基于运行时权限机制访问外置sdcard是需要动态申请权限,所以以 ...
Java中Comparable与Comparator的区别
相同 Comparable和Comparator都是用来实现对象的比较.排序要想对象比较.排序,都需要实现Comparable或Comparator接口 Comparable和Comparator都 ...
安装eclipse的maven插件
我们团队用maven来管理项目需要的库文件,其实以前都没听过maven,第一次接触这个,师兄要我直接去装下这个,开始以为还挺简单的,没想到中间遇到了一些小麻烦,现在把我成功安装maven的过程分享下, ...
Git分布式版本控制教程
Git分布式版本控制Git 安装配置Linux&Unix平台 Debian/Ubuntu $ apt-get install git Fedora $ ) $ dnf and later) G ...
listview下拉刷新和上拉加载更多的多种实现方案
listview经常结合下来刷新和上拉加载更多使用,本文总结了三种常用到的方案分别作出说明. 方案一:添加头布局和脚布局 android系统为listview提供了addfootview ...
浅谈单片机中C语言与汇编语言的转换
做了一单片机设计,要用C语言与汇编语言同时实现,现将这次设计的感受和收获,还有遇到的问题写下,欢迎感兴趣的朋友交流想法,提出建议. 单片机设计:基于51单片机的99码表设计软件环境:Proteus8 ...
[DJANGO] excel十几万行数据快速导入数据库研究
先贴原来的导入数据代码: 8 import os os.environ.setdefault("DJANGO_SETTINGS_MODULE", "www.setting ...
babel-loader-presets
babel-loader的presets的设置有一定的顺序.es2015必须出现在stage-0前面,我记得这是因为es2015是ES6的标准,state-0等是对ES7一些提案的支持, state- ...