Bloom Filter的应用

1、布隆过滤器是什么？　

　　又快又小的处理方法
　　布隆过滤器(Bloom Filter):是一种空间效率极高的概率型算法和数据结构，用于判断一个元素是否在集合中（类似Hashset）。
　　它的核心一个很长的二进制向量和一系列hash函数

　　数组长度以及hash函数的个数都是动态确定的。

　　Hash函数：SHA1,SHA256,MD5..

2、应用的经典场景　

　　一个像Yahoo，HotMail和Gmail那样的公众电子邮件提供商，
　　总是需要过滤来自发送垃圾邮件的人的垃圾邮件，
　　一个办法就是记录下那些发送垃圾邮件的email地址，
　　由于那些发送者不停地再注册新的地址，全世界少说也有五十亿个发垃圾邮件的地址，
　　怎么样迅速的判断一个邮件地址是不是垃圾邮件地址？把它存起来然后确认？

　　一个邮箱平均18个字节，50亿个邮箱容量多大？
　　18byte x 50亿 = 90亿

3、优势和劣势

　　优势：
　　　　全量存储但是不存储元素本身，在某些对保密要求非常严格的场合有优势；
　　　　空间高效率
　　　　插入/查询时间都是常数O(k),远远超过一般的算法

　　劣势：
　　　　存在误算率(False Positive)，随着存入的元素数量增加，误算率随之增加；
　　　　一般情况下不能从布隆过滤器中删除元素；
　　　　数组长度以及hash函数个数确定过程复杂；

4、应用场景　

　Google著名的分布式数据库Bigtable以及Hbase使用了布隆过滤器来查找不存在的行或列，以及减少磁盘查找的IO次数
　文档存储检查系统也采用布隆过滤器来检测先前存储的数据
　Goole Chrome浏览器使用了布隆过滤器加速安全浏览服务
　垃圾邮件地址过滤
　爬虫URL地址去重
　解决缓存穿透问题

5、Bloom Filter实战

　　使用goole guava轻松实现bloom filter
　　源码分析 bitArray,numHashFunction,funnel,Strategy,put(),
　　Demo实例
　　　　场景描述：100w字符串放入布隆过滤器，另外随机生成1w字符串，判断他们在100w里面是否存在
　　　　目的，了解布隆过滤器的简单使用；
　　　　了解误判率对hash函数个数以及bit数组长度的影响
　　　　使用bloom filter解决缓存击穿的问题

public class BloomFilterTest {

    private static final int insertions = 1000000; //100w

    @Test

    public void bfTest(){

        //初始化一个存储string数据的布隆过滤器，初始化大小100w,不能设置为0

        BloomFilter<String> bf = BloomFilter.create(Funnels.stringFunnel(Charsets.UTF_8), insertions,0.001);

        //初始化一个存储string数据的set，初始化大小100w

        Set<String> sets = new HashSet<>(insertions);

        //初始化一个存储string数据的set，初始化大小100w

        List<String> lists = new ArrayList<String>(insertions);

        //向三个容器初始化100万个随机并且唯一的字符串---初始化操作

        for (int i = 0; i < insertions; i++) {

            String uuid = UUID.randomUUID().toString();

            bf.put(uuid);

            sets.add(uuid);

            lists.add(uuid);

        }

        int wrong = 0;//布隆过滤器错误判断的次数

        int right = 0;//布隆过滤器正确判断的次数

        for (int i = 0; i < 10000; i++) {

            String test = i%100==0?lists.get(i/100):UUID.randomUUID().toString();//按照一定比例选择bf中肯定存在的字符串

            if(bf.mightContain(test)){

                if(sets.contains(test)){

                    right ++;

                }else{

                    wrong ++;

                }

            }

        }

        System.out.println("=================right====================="+right);//

        System.out.println("=================wrong====================="+wrong);

    }

}

6、解决缓存击穿

private BloomFilter<String> bf;

@postConstruct  ------------->初始化的方法

private void init(){

    //将唯一编码加进来

    //初始化布隆过滤器

    bf = BloomFiler.create(Funnels.stringFunner(Charsets.UTF_8),编码.size()*1.2);

    for(String str:ucodes){

    bf.put(str);

}

========将布隆过滤器的数据放到单个服务，和业务代码分开

使用多线程放进去

if(bf.mightContain(usercode)){

    return null;

}

本次布隆过滤器落地场景是：优化关联查询

优化背景：查询订单需要关联预警订单数据，由于每查询一笔预警就要查询一次预警表，效率低，即是判断该订单是否预警

可以先将预警的订单放到布隆过滤器中存放一份，则查询订单的时候可以用于关联

应用该场景的原因：大部分订单还是正常的，所以没不要每次去关联

先去布隆过滤器查询该订单是否存在，不存在则直接返回正常，存在则去预警表查询，允许一定的误差率

Bloom Filter的应用的更多相关文章

Bloom Filter：海量数据的HashSet
Bloom Filter一般用于数据的去重计算,近似于HashSet的功能:但是不同于Bitmap(用于精确计算),其为一种估算的数据结构,存在误判(false positive)的情况. 1. 基本 ...
探索C#之布隆过滤器(Bloom filter)
阅读目录: 背景介绍算法原理误判率 BF改进总结背景介绍 Bloom filter(后面简称BF)是Bloom在1970年提出的二进制向量数据结构.通俗来说就是在大数据集合下高效判断某个成员是 ...
Bloom Filter 布隆过滤器
Bloom Filter 是由伯顿.布隆(Burton Bloom)在1970年提出的一种多hash函数映射的快速查找算法.它实际上是一个很长的二进制向量和一些列随机映射函数.应用在数据量很大的情况下 ...
Bloom Filter学习
参考文献: Bloom Filters - the math http://pages.cs.wisc.edu/~cao/papers/summary-cache/node8.html B ...
【转】探索C#之布隆过滤器(Bloom filter)
原文:蘑菇先生,http://www.cnblogs.com/mushroom/p/4556801.html 背景介绍 Bloom filter(后面简称BF)是Bloom在1970年提出的二进制向量 ...
bloom filter
Bloom filter 是由 Howard Bloom 在 1970 年提出的二进制向量数据结构,它具有很好的空间和时间效率,被用来检测一个元素是不是集合中的一个成员. 结构二进制召回率 ...
Bloom Filter 概念和原理
Bloom filter 是由 Howard Bloom 在 1970 年提出的二进制向量数据结构,它具有很好的空间和时间效率,被用来检测一个元素是不是集合中的一个成员.如果检测结果为是,该元素不一定 ...
【转】Bloom Filter布隆过滤器的概念和原理
转自:http://blog.csdn.net/jiaomeng/article/details/1495500 之前看数学之美丽,里面有提到布隆过滤器的过滤垃圾邮件,感觉到何其的牛,竟然有这么高效的 ...
[爬虫学习笔记]基于Bloom Filter的url去重模块UrlSeen
Url Seen用来做url去重.对于一个大的爬虫系统,它可能已经有百亿或者千亿的url,新来一个url如何能快速的判断url是否已经出现过非常关键.因为大的爬虫系统可能一秒钟就会下载 ...
bloom filter 详解［转］
Bloom Filter概念和原理焦萌 2007年1月27日 Bloom Filter是一种空间效率很高的随机数据结构,它利用位数组很简洁地表示一个集合,并能判断一个元素是否属于这个集合.Bloom ...

随机推荐

JAVA本地文本读取---解决中文乱码
import java.io.*; public class ReadFile { public static void main(String[] args) { try { File file = ...
vue中动态循环model
vue动态循环model与angular有所不同,angular直接定义一个数组,然后传入循环列表的index即可. 而vue不仅需要定义一个数组,还需要通过接口读出循环的数组长度,然后在create ...
经典linux书籍
入门篇<LINUX权威指南>书不错,写的很全面也比较广,涉及的不深,做为入门书籍不错,可以比较全面的了解linux .另外比较热门的也可以看看<鸟哥的私房菜>等书,偏管理类的书 ...
PLSQL自动断开服务器连接（转）
最近,有同事反映在使用PLSQL连接数据库的时候,总是出现数据库频繁自动断开连接.这是因为资源配置文件中IDLE_TIME参数的限制,IDLE_TIME指定会话允许连续不活动的总的时间,以分钟为单位, ...
R语言绘制相对性关系图
准备第一步就是安装R语言环境以及RStudio 图绘制准备首先安装库文件,敲入指令,回车 install.packages('corrplot') 然后安装excel导入的插件,点击右上角impo ...
Fiddler抓包7-post请求（json）【转载】
本篇转自博客:上海-悠悠原文地址:http://www.cnblogs.com/yoyoketang/tag/fiddler/ 前言上一篇讲过get请求的参数都在url里,post的请求相对于get ...
洛谷 P1094 纪念品分组【贪心/双指针/最少多少组合法不要求连续的两两捆绑】
题目描述元旦快到了,校学生会让乐乐负责新年晚会的纪念品发放工作.为使得参加晚会的同学所获得的纪念品价值相对均衡,他要把购来的纪念品根据价格进行分组,但每组最多只能包括两件纪念品, 并且每组纪念品的 ...
EGS5在linux系统下安装过程
转载自52MC论坛作者:xinruibj 平台:Fedora 13 内核版本为:2.6.33, g77版本为:3.4.6: 用户名为xinrui,下面出现这个文件夹xinrui时,修改为你自己的用户 ...
Oracle提示密码快过期的解决办法
今天在使用ORACLE时报出如下错误:ORA-28002: the password will expire within 7 days================================ ...
hdu 1599 find the mincost route 最小环
题目链接:HDU - 1599 杭州有N个景区,景区之间有一些双向的路来连接,现在8600想找一条旅游路线,这个路线从A点出发并且最后回到A点,假设经过的路线为V1,V2,....VK,V1,那么必须 ...

Bloom Filter的应用

Bloom Filter的应用的更多相关文章

随机推荐

热门专题