Spark布隆过滤器(bloomFilter)

数据过滤在很多场景都会应用到，特别是在大数据环境下。在数据量很大的场景实现过滤或者全局去重，需要存储的数据量和计算代价是非常庞大的。很多小伙伴第一念头肯定会想到布隆过滤器，有一定的精度损失，但是存储性能和计算性能可以达到几何级别的提升。很多第三方框架也实现了相应的功能，比如hbase框架实现的布隆过滤器性能是非常的棒，redis也可以实现相应的功能。这些需要借助于第三方框架，需要维护第三方框架。如果公司没有部署相应架构，单独为使用布隆过滤器部署一套集群，代价还是非常大的。

我们在做流式计算时需要实现数据小时级别去重和天级别数据去重，初始功能版本使用的是基于redis实现的布隆过滤器。性能也非常的好，三个节点的redis集群（三主三从，主从交叉策略）性能可以达到每秒十几万的处理性能。在后期的使用中主要瓶颈就在redis的吞吐量的性能上。一直想在这块做一定的性能优化。

后来，发现spark官方封装了基于DataFrame的布隆过滤器，使用起来相当方便。性能不再受制于第三方框架的吞吐量限制，依赖于spark的并行资源。可以减少架构设计的复杂度，提高可维护性。在流式计算应用中可以将布隆过滤器做成driver级别的全局变量，在batch结束更新布隆过滤器。如果考虑容错，可以将布隆过滤器数据定期持久化到磁盘（hdfs/redis)。

直接上代码，看一下使用方法

 val bf = df.stat.bloomFilter("dd",dataLen,0.01)

 val rightNum = rdd.map(x=>(x.toInt,bf.mightContainString(x)))

首先，在生成布隆过滤器直接调用bloomFilter(colName:String,expectedNumItems:Long,fpp:Double)就可以了，第一个参数是使用的数据列，第二个参数是数据量期望会有多少，第三个参数是损失精度。损失精度越低生成的布隆数组长度就会越长，占用的空间就会越多，计算过程就会越漫长。

在用有些场景布隆过滤器还需要合并，官方也提供了相应的API

   mergeInPlace(BloomFilter var1):BloomFilter

判定数据是否存在,官方一共提供了四个方法：

    mightContain(Object var1),

    mightContainString(String val1),

    mightContainLong(long var1),

    mightContainBinary(byte[] var1)

不同的方法适用于不同的类型，bloomFilter（calname:String...)这个方法中使用列的数据类型一定要和以上四个方法对应，否则会出问题。

官方还很贴心的提供了序列化和反序列化工具：writeTo和readFrom，可以很方便的将布隆过滤器序列化到磁盘和从磁盘加载布隆过滤器。

Spark布隆过滤器(bloomFilter)的更多相关文章

布隆过滤器(BloomFilter)持久化
摘要 Bloomfilter运行在一台机器的内存上,不方便持久化(机器down掉就什么都没啦),也不方便分布式程序的统一去重.我们可以将数据进行持久化,这样就克服了down机的问题,常见的持久化方法包 ...
HBase之八--(3)：Hbase 布隆过滤器BloomFilter介绍
布隆过滤器( Bloom filters) 数据块索引提供了一个有效的方法,在访问一个特定的行时用来查找应该读取的HFile的数据块.但是它的效用是有限的.HFile数据块的默认大小是64KB,这个大 ...
白话布隆过滤器BloomFilter
通过本文将了解到以下内容: 查找问题的一般思路布隆过滤器的基本原理布隆过滤器的典型应用布隆过滤器的工程实现场景说明: 本文阐述的场景均为普通单机服务器.并非分布式大数据平台,因为在大数据平台下 ...
【浅析】|白话布隆过滤器BloomFilter
通过本文将了解到以下内容: 查找问题的一般思路布隆过滤器的基本原理布隆过滤器的典型应用布隆过滤器的工程实现场景说明: 本文阐述的场景均为普通单机服务器.并非分布式大数据平台,因为在大数据平台下 ...
Hbase 布隆过滤器BloomFilter介绍
转载自:http://blog.csdn.net/opensure/article/details/46453681 1.主要功能提高随机读的性能 2.存储开销 bloom filter的数据存在S ...
海量数据处理之布隆过滤器BloomFilter算法
Bloom Filter是由Bloom在1970年提出的一种多哈希函数映射的快速查找算法.通常应用在一些需要快速判断某个元素是否属于集合,但是并不严格要求100%正确的场合.使用场景:数据量为100亿 ...
SpringBoot(18）---通过Lua脚本批量插入数据到Redis布隆过滤器
通过Lua脚本批量插入数据到布隆过滤器有关布隆过滤器的原理之前写过一篇博客: 算法(3)---布隆过滤器原理在实际开发过程中经常会做的一步操作,就是判断当前的key是否存在. 那这篇博客主要分为三 ...
guava布隆过滤器
pom引入依赖 <dependency> <groupId>com.google.guava</groupId> <artifactId>guava&l ...
浅谈布隆过滤器Bloom Filter
先从一道面试题开始: 给A,B两个文件,各存放50亿条URL,每条URL占用64字节,内存限制是4G,让你找出A,B文件共同的URL. 这个问题的本质在于判断一个元素是否在一个集合中.哈希表以O(1) ...

随机推荐

lvm逻辑卷扩容报错解决
报错: [root@centos21 space]# resize2fs /dev/centos/root resize2fs (-Dec-) resize2fs: Bad magic number ...
OpenStack核心组件-cinder存储服务
1. cinder 介绍 Block Storage 操作系统获得存储空间的方式一般有两种: 1) 通过某种协议(SAS,SCSI,SAN,iSCSI 等)挂接裸硬盘,然后分区.格式化.创建文 ...
java 获取最近7天最近今天的日期
private static Date getDateAdd(int days){ SimpleDateFormat sf = new SimpleDateFormat("yyyy-MM-d ...
【转载】lr运行时设置，每个action 比例
提供了再脚本运行时所需要的相关选项. 性能测试的关键之一:能否通过脚本来完全模拟用户的行为,可以通过运行设置让脚本运行的更人性化. 1. Run Logic 脚本如何运行,每个action与actio ...
anyproxy学习2-rule模块实现接口mock功能
前言 AnyProxy不仅仅可以抓包,还可以拦截请求并修改服务端响应,实现接口mock功能. 面试时候经常会问到第三方支付如何测试这种,如果对接的第三方没提供测试环境,那么就需要搭建一个mock服务器 ...
《BUG创造队》第九次团队作业：Beta冲刺与验收准备
项目内容这个作业属于哪个课程 2016级软件工程这个作业的要求在哪里实验十三团队作业9:Beta冲刺与团队项目验收团队名称 BUG创造队作业学习目标 (1)掌握软件黑盒测试技术:(2)学 ...
PHP——数组根据某一键值合并
前言其实要实现很简单直接foreach,再根据PHP中数组的特性就可以轻松实现. 步骤这是源数据的格式 $info = [ [ "gname" => "特别关心 ...
51nod1463 找朋友
[传送门] 写的时候一直没有想到离线解法,反而想到两个比较有趣的解法.一是分块,$f[i][j]$表示第$i$块块首元素到第$j$个元素之间满足条件的最大值(即对$B_l + B_r \in K$的$ ...
解决<c:if>无else的问题
之前发了一个jstl的if标签博客,说是jsp没有提供<c:else>标签.于是有大佬评论,说<c:choose></c:choose>可以解决,通过查资料和敲代码 ...
BZOJ 4890: [Tjoi2017]城市树形dp
标签:树形dp,枚举,树的直径一上来看到这个题就慌了,只想到了 $O(n^3)$ 的做法. 碰到这种题时要一步一步冷静地去分析,观察数据范围. 首先,$n\leqslant 5000$,所以可以先 ...

Spark布隆过滤器(bloomFilter)

Spark布隆过滤器(bloomFilter)的更多相关文章

随机推荐

热门专题