Bloom Filter的应用
1、布隆过滤器是什么?
又快又小的处理方法
布隆过滤器(Bloom Filter):是一种空间效率极高的概率型算法和数据结构,用于判断一个元素是否在集合中(类似Hashset)。
它的核心一个很长的二进制向量和一系列hash函数
数组长度以及hash函数的个数都是动态确定的。
Hash函数:SHA1,SHA256,MD5..
2、应用的经典场景
一个像Yahoo,HotMail和Gmail那样的公众电子邮件提供商,
总是需要过滤来自发送垃圾邮件的人的垃圾邮件,
一个办法就是记录下那些发送垃圾邮件的email地址,
由于那些发送者不停地再注册新的地址,全世界少说也有五十亿个发垃圾邮件的地址,
怎么样迅速的判断一个邮件地址是不是垃圾邮件地址?把它存起来然后确认?
一个邮箱平均18个字节,50亿个邮箱容量多大?
18byte x 50亿 = 90亿
3、优势和劣势
优势:
全量存储但是不存储元素本身,在某些对保密要求非常严格的场合有优势;
空间高效率
插入/查询时间都是常数O(k),远远超过一般的算法
劣势:
存在误算率(False Positive),随着存入的元素数量增加,误算率随之增加;
一般情况下不能从布隆过滤器中删除元素;
数组长度以及hash函数个数确定过程复杂;
4、应用场景
- Google著名的分布式数据库Bigtable以及Hbase使用了布隆过滤器来查找不存在的行或列,以及减少磁盘查找的IO次数
- 文档存储检查系统也采用布隆过滤器来检测先前存储的数据
- Goole Chrome浏览器使用了布隆过滤器加速安全浏览服务
- 垃圾邮件地址过滤
- 爬虫URL地址去重
- 解决缓存穿透问题
5、Bloom Filter实战
使用goole guava轻松实现bloom filter
源码分析 bitArray,numHashFunction,funnel,Strategy,put(),
Demo实例
场景描述:100w字符串放入布隆过滤器,另外随机生成1w字符串,判断他们在100w里面是否存在
目的,了解布隆过滤器的简单使用;
了解误判率对hash函数个数以及bit数组长度的影响
使用bloom filter解决缓存击穿的问题
public class BloomFilterTest { private static final int insertions = 1000000; //100w @Test
public void bfTest(){
//初始化一个存储string数据的布隆过滤器,初始化大小100w,不能设置为0
BloomFilter<String> bf = BloomFilter.create(Funnels.stringFunnel(Charsets.UTF_8), insertions,0.001);
//初始化一个存储string数据的set,初始化大小100w
Set<String> sets = new HashSet<>(insertions);
//初始化一个存储string数据的set,初始化大小100w
List<String> lists = new ArrayList<String>(insertions); //向三个容器初始化100万个随机并且唯一的字符串---初始化操作
for (int i = 0; i < insertions; i++) {
String uuid = UUID.randomUUID().toString();
bf.put(uuid);
sets.add(uuid);
lists.add(uuid);
} int wrong = 0;//布隆过滤器错误判断的次数
int right = 0;//布隆过滤器正确判断的次数
for (int i = 0; i < 10000; i++) {
String test = i%100==0?lists.get(i/100):UUID.randomUUID().toString();//按照一定比例选择bf中肯定存在的字符串
if(bf.mightContain(test)){
if(sets.contains(test)){
right ++;
}else{
wrong ++;
}
}
} System.out.println("=================right====================="+right);//
System.out.println("=================wrong====================="+wrong);
} }
6、解决缓存击穿
private BloomFilter<String> bf; @postConstruct ------------->初始化的方法
private void init(){
//将唯一编码加进来
//初始化布隆过滤器
bf = BloomFiler.create(Funnels.stringFunner(Charsets.UTF_8),编码.size()*1.2);
for(String str:ucodes){
bf.put(str);
}
========将布隆过滤器的数据放到单个服务,和业务代码分开
使用多线程放进去
if(bf.mightContain(usercode)){
return null;
}
本次布隆过滤器落地场景是:优化关联查询
优化背景:查询订单需要关联预警订单数据,由于每查询一笔预警就要查询一次预警表,效率低,即是判断该订单是否预警
可以先将预警的订单放到布隆过滤器中存放一份,则查询订单的时候可以用于关联
应用该场景的原因:大部分订单还是正常的,所以没不要每次去关联
先去布隆过滤器查询该订单是否存在,不存在则直接返回正常,存在则去预警表查询,允许一定的误差率
Bloom Filter的应用的更多相关文章
- Bloom Filter:海量数据的HashSet
Bloom Filter一般用于数据的去重计算,近似于HashSet的功能:但是不同于Bitmap(用于精确计算),其为一种估算的数据结构,存在误判(false positive)的情况. 1. 基本 ...
- 探索C#之布隆过滤器(Bloom filter)
阅读目录: 背景介绍 算法原理 误判率 BF改进 总结 背景介绍 Bloom filter(后面简称BF)是Bloom在1970年提出的二进制向量数据结构.通俗来说就是在大数据集合下高效判断某个成员是 ...
- Bloom Filter 布隆过滤器
Bloom Filter 是由伯顿.布隆(Burton Bloom)在1970年提出的一种多hash函数映射的快速查找算法.它实际上是一个很长的二进制向量和一些列随机映射函数.应用在数据量很大的情况下 ...
- Bloom Filter学习
参考文献: Bloom Filters - the math http://pages.cs.wisc.edu/~cao/papers/summary-cache/node8.html B ...
- 【转】探索C#之布隆过滤器(Bloom filter)
原文:蘑菇先生,http://www.cnblogs.com/mushroom/p/4556801.html 背景介绍 Bloom filter(后面简称BF)是Bloom在1970年提出的二进制向量 ...
- bloom filter
Bloom filter 是由 Howard Bloom 在 1970 年提出的二进制向量数据结构,它具有很好的空间和时间效率,被用来检测一个元素是不是集合中的一个成员. 结 构 二进制 召回率 ...
- Bloom Filter 概念和原理
Bloom filter 是由 Howard Bloom 在 1970 年提出的二进制向量数据结构,它具有很好的空间和时间效率,被用来检测一个元素是不是集合中的一个成员.如果检测结果为是,该元素不一定 ...
- 【转】Bloom Filter布隆过滤器的概念和原理
转自:http://blog.csdn.net/jiaomeng/article/details/1495500 之前看数学之美丽,里面有提到布隆过滤器的过滤垃圾邮件,感觉到何其的牛,竟然有这么高效的 ...
- [爬虫学习笔记]基于Bloom Filter的url去重模块UrlSeen
Url Seen用来做url去重.对于一个大的爬虫系统,它可能已经有百亿或者千亿的url,新来一个url如何能快速的判断url是否已经出现过非常关键.因为大的爬虫系统可能一秒钟就会下载 ...
- bloom filter 详解[转]
Bloom Filter概念和原理 焦萌 2007年1月27日 Bloom Filter是一种空间效率很高的随机数据结构,它利用位数组很简洁地表示一个集合,并能判断一个元素是否属于这个集合.Bloom ...
随机推荐
- POJ 1523 SPF 求割点的好(板子)题!
题意: 给个无向图,问有多少个割点,对于每个割点求删除这个点之后会产生多少新的点双联通分量 题还是很果的 怎么求割点请参考tarjan无向图 关于能产生几个新的双联通分量,对于每个节点u来说,我们判断 ...
- BZOJ2763 [JLOI2011]飞行路线 【分层图 + 最短路】
题目 Alice和Bob现在要乘飞机旅行,他们选择了一家相对便宜的航空公司.该航空公司一共在n个城市设有业务,设这些城市分别标记为0到n-1,一共有m种航线,每种航线连接两个城市,并且航线有一定的价格 ...
- CF10D LCIS (动态规划)
题目链接 Solution 动态规划. 令 \(f_{i,j}\) 表示 \(a\) 数组前 \(i\) 个和 \(b\) 数组前 \(j\) 所得的最长的 LCIS . 转移很好想: \(a_i!= ...
- Codeforces Round #395 Div.2 题解
感受 第一次参加CF的rating比赛,感觉还是非常exciting,前18分钟把AB切掉之后一直在考虑C题,结果最后还是没有想出来Orz 传送门 A 比较水的模拟,就是计算:\(\frac{z}{l ...
- 积木大赛(NOIP2013)(纯贪心+模拟)
好吧,这道题也是..醉了. 其实题目编程挺水的,但是贪心过程不好想. 原题传送门 这道题对于任何一个点a[i]如果a[i]<a[i-1]的话,那么假设a[i-1]的高度为X,a[i]的高度为y, ...
- 疫情控制(NOIP2012)庆祝2012满贯!٩(๑•◡-๑)۶ⒽⓤⒼ
丧病至极的D2T3啊! 好吧~ 先放个传送门~ 原题传送门 好吧,这道题呢.. 根据题意我们可以很明显的看出来 军队往上走的越多(在没到根节点之前),效益一定越大.. 所以可以分情况讨论: 对于无法走 ...
- 搭建github服务器
https://about.gitlab.com/downloads/#centos6
- .h 和 .cpp 切换快捷键设置(转)
原文转自 https://blog.csdn.net/t163361/article/details/51859274 打开VS后依次选择如下 工具-> 选项-> 环境-> 键盘-& ...
- MFC 获得各类指针、句柄的方法(转)
原文转自 https://blog.csdn.net/abcjennifer/article/details/7480019 1.MFC中获取常见类句柄<视图类,文档类,框架类,应用程序类> ...
- android hook 框架 ADBI 如何实现so注入
Android so注入-libinject2 简介.编译.运行 Android so注入-libinject2 如何实现so注入 Android so注入-Libinject 如何实现so注入 A ...