布隆过滤器雏形

未完待续.....

计算错误率

现在有一个空额布隆过滤器, 过滤器里的bit array的大小是m. 咱来插入一个元素. 这次插入过程中的第一个hash函数会算出一个位置, 然后把这个位置设置为1. 此时如果在这个过滤器中随机选取一个位置, 这个位置的值是1的概率为:

    (式①)

这个位置的值是0的概率为:

    (式②)

插入这个元素需要进行k个hash运算, 然后把相应的位置的值都改为1. 这个元素插入完之后, 从这个过滤器中, 随机取一个位置, 这个位置的值是0的概率为:

   (式③)

这个位置的值是1的概率为:

   (式④)

如果在这个布隆过滤器中, 插入了n个元素. 然后随机取其中一个位置, 这个位置的值是0的概率为:

    (式⑤)

这个位置的值是1的概率为:

    (式⑥)

现在这个布隆过滤器里有n个元素. 现在来了一个新元素. 这个新元素用k个hash函数, 分别计算了hash值, 结果k个位置在之前就已经被设置为了1. 这就是错误了, 把不存在于集合中的元素, 判断为了在集合中, 被称为假阳性. 这种情况的概率是:

    (式⑦)

上面式子整理一下指数nk, 就等价于下面这个式子:

    (式⑧)

这是一个极限公式:

上面的式⑧可以根据这个极限公式, 转化为下面这个式子:

    (式⑨)

函数 f 就是误判率了.

最优的哈希函数个数

根据上面这个公式, 可以将 f 转化为:

  (式⑩)

式10的表达式太长了...咱们引入两个新的符号p 和 g :

咱们回到话题"最优的hash函数个数k".

k是自变量, f是因变量. 让 f 取值最小的那个k值, 就是最有解. 也就是最优的hash函数个数.

让f最小, 也可以转化为: 让g最小. 所以咱们求一下"令g值最小的k值"

 (式⑪)

把上面这个k带入到g中, 可以得到:

想让g取最小值, 其实就是让 ln(p) * ln(1-p)  取最大值.

当p = 1/2 时 . ln(p) * ln(1-p) 取最大值. 也就是 g 取最小值. 也就是 f 取 最小值.

将 p = 1/2 带入式11, 得:

位数组的大小

咱们模拟一个场景: 使用布隆过滤器来做URL的过滤. 将含有不良信息的URL作为黑名单, 存入到布隆过滤器中, 进行过滤.

咱么假设全世界有u个URL. 其中有n个是含有不良信息的. 布隆过滤器的 `位数组` 的大小是m.

咱们把这n个黑名单URL插入到布隆过滤器中.

这n个URL, 在被访问时, 会直接被布隆过滤器判定为含有不良信息的URL.

但是如果布隆过滤器的误判率是ϵ的话, 那么会有 ϵ*(u - n) 个元素, 明明是正常的URL, 却会被布隆过滤器认定为是含有不良信息的URL.

在这个场景中, 布隆过滤器的作用就是判断URL, 判断并过滤掉有不良信息的URL. 他会正确地判断出n个黑名单URL, 还会误判ϵ*(u - n) 个URL.

所以这个布隆过滤器, 会过滤 n + ϵ*(u - n) 个URL. 而当前的布隆过滤器中, 实际只有n个元素.

所以当前的布隆过滤器的`位数组`的状态, 可以表示的集合数量为:

 (式⑫)

式⑫只是在刚才的那个特定条件下的`位数组`可以表示的集合数量.

如果咱们改变布隆过滤器的其中一个位. 那么此时就表示了新的ω个集合.

刚刚讲了, 只要改动其中一个位, 新的`位数组`就可以表示新的ω个集合. m 位的`位数组`共有 2m 个不同的组合来进行改变. 进而可以推出, m位的`位数组`可以表示的集合数量为:

全集中 n个元素的集合总共的数量为:

要让 m 位的位数组能够表示所有 n 个元素的集合, 必须有:

整理一下, 也就是:

如果n 远小于 ε·u

 (式⑬)

接下来咱们对于上式中的真数进行计算:

所以, 式⑬中的:

于是我们得出结论1 : 在错误率不大于 ϵ 的情况下, m 至少要等于 才能表示任意 n 个元素的集合.

在计算错误率的小节中, 最后得出了式⑨:

在计算最优函数个数的小节中, 定义了:

而且在最后p = 1/2 时, 为最优函数个数.

又根据上面小节的式⑪:

在取最优函数个数的时候:

咱们令 f ≤ ε

其中 

于是我们有了结论2:  如果想采用最优函数个数, 那么m值就得是结论1的 1.44倍.

总结一下结论1 和 结论2 :

如果想保证错误率不大于ε. 那么就m的最小值就得是

如果hash函数的个数想取最优值, 那么m的最小值就得是 

 

(式①②③④⑤⑥⑦⑧⑨⑩⑪⑫⑬⑭⑮⑯)

[1].<<数学之美>>第23章. 作者: 吴军

[2].https://blog.csdn.net/maoke2005191/article/details/78977277

布隆过滤器(Bloom Filter) 未完待续的更多相关文章

  1. [转载]布隆过滤器(Bloom Filter)

    [转载]布隆过滤器(Bloom Filter) 这部分学习资料来源:https://www.youtube.com/watch?v=v7AzUcZ4XA4 Filter判断不在,那就是肯定不在:Fil ...

  2. 【面试突击】-缓存击穿(布隆过滤器 Bloom Filter)

    原文地址:https://blog.csdn.net/fouy_yun/article/details/81075432 前面的文章介绍了缓存的分类和使用的场景.通常情况下,缓存是加速系统响应的一种途 ...

  3. 布隆过滤器(Bloom Filter)详解——基于多hash的概率查找思想

    转自:http://www.cnblogs.com/haippy/archive/2012/07/13/2590351.html   布隆过滤器[1](Bloom Filter)是由布隆(Burton ...

  4. 布隆过滤器(Bloom Filter)的原理和实现

    什么情况下需要布隆过滤器? 先来看几个比较常见的例子 字处理软件中,需要检查一个英语单词是否拼写正确 在 FBI,一个嫌疑人的名字是否已经在嫌疑名单上 在网络爬虫里,一个网址是否被访问过 yahoo, ...

  5. [转载] 布隆过滤器(Bloom Filter)详解

    转载自http://www.cnblogs.com/haippy/archive/2012/07/13/2590351.html   布隆过滤器[1](Bloom Filter)是由布隆(Burton ...

  6. 布隆过滤器(Bloom Filter)详解

    直观的说,bloom算法类似一个hash set,用来判断某个元素(key)是否在某个集合中.和一般的hash set不同的是,这个算法无需存储key的值,对于每个key,只需要k个比特位,每个存储一 ...

  7. 浅谈布隆过滤器Bloom Filter

    先从一道面试题开始: 给A,B两个文件,各存放50亿条URL,每条URL占用64字节,内存限制是4G,让你找出A,B文件共同的URL. 这个问题的本质在于判断一个元素是否在一个集合中.哈希表以O(1) ...

  8. 布隆过滤器 Bloom Filter 2

    date: 2020-04-01 17:00:00 updated: 2020-04-01 17:00:00 Bloom Filter 布隆过滤器 之前的一版笔记 点此跳转 1. 什么是布隆过滤器 本 ...

  9. 布隆过滤器(Bloom Filter)-学习笔记-Java版代码(挖坑ing)

    布隆过滤器解决"面试题: 如何建立一个十亿级别的哈希表,限制内存空间" "如何快速查询一个10亿大小的集合中的元素是否存在" 如题 布隆过滤器确实很神奇, 简单 ...

随机推荐

  1. intellij idea 2017和Jprofiler 10的集成 报错问题

    本来想用Jprofiler来分析一下自己写的Java项目,以提高代码执行效率和自己的编码能力.结果,官网和网上很多帖子都写了点出session->IDE integrations->选择i ...

  2. MyDAL - is null && is not null 条件 使用

    索引: 目录索引 一.API 列表 C# 代码中 instance.property == null 生成 SQL 对应的 is null : 如:.Queryer<Agent>() .. ...

  3. MyDAL - .IsExistAsync() 使用

    索引: 目录索引 一.API 列表 .IsExistAsync() 用于 单表 / 多表连接 查询 二.API 单表-便捷 方法 举例 1.单表-便捷, 判断是否存在方法 var date = Dat ...

  4. 简说Python生态系统的14年演变

    [导语]Python 里各种丰富的标准库.第三方库和模块成为其广受欢迎的原因之一.而 PyPI 就是大家想第三方库前先要安装的一个仓库.作为使用者,它可以帮我们查找 Python 社区开发和共享的软件 ...

  5. mssql sqlserver 对不同群组对象进行聚合计算的方法分享

    摘要: 下文讲述通过一条sql语句,采用over关键字同时对不同类型进行分组的方法,如下所示: 实验环境:sql server 2008 R2 当有一张明细表,我们需同时按照不同的规则,计算平均.计数 ...

  6. TiDB 架构及设计实现

    一. TiDB的核心特性 高度兼容 MySQL 大多数情况下,无需修改代码即可从 MySQL 轻松迁移至 TiDB,分库分表后的 MySQL 集群亦可通过 TiDB 工具进行实时迁移. 水平弹性扩展 ...

  7. WPF软件开发系统之四——医疗病人信息管理系统

    仿360悬浮窗的方式,始终有个工具栏浮在桌面的最顶层,方便任何时候操作. 主要功能包括:病人信息的添加.修改.查询.包括别人基本信息.诊断结果.接待医生.手术多张图片等. 系统特点:简洁.易操作.美观 ...

  8. Java基础系列--07_Object类的学习及源码分析

    Object: 超类 (1)Object是类层次结构的顶层类,是所有类的根类,超类.   所有的类都直接或者间接的继承自Object类.   所有对象(包括数组)都实现这个类的方法 (2)Object ...

  9. 是时候选择一款富文本编辑器了(wangEditor)

    需要一款富文本编辑器,当然不能自己造轮子.本来想使用cnblog也在用的TinyMCE,名气大,功能全.但是发现TinyMCE从4.0开始,不再支持直接下载.所以还是决定选用wangEditor.遗憾 ...

  10. 江苏省选2019Round2游记

    JSOI2019R2过去了. 翻盘变翻车... Day 0 打板子.写了几棵主席树. 然后啃CF 331D3.啃不动 Day 1 开T1.这什么玩意啊...换换换 开T2.一眼\(10\)分的状压,码 ...