布隆过滤器(BloomFilter)持久化

摘要

Bloomfilter运行在一台机器的内存上，不方便持久化（机器down掉就什么都没啦），也不方便分布式程序的统一去重。我们可以将数据进行持久化，这样就克服了down机的问题，常见的持久化方法包括持久化到本地磁盘或结合Redis进行持久化。本文主要介绍持久化到本地的操作。

关于BloomFilter的基本原理、jar包及入门Demo，请参考我的博客：布隆过滤器

数据持久化

import java.io.File;

import java.io.FileNotFoundException;

import java.io.FileOutputStream;

import java.io.IOException;

import java.io.OutputStream;

import com.google.common.hash.BloomFilter;

import com.google.common.hash.Funnels;

public class Demo1 {

	public static void main(String[] args) throws FileNotFoundException {

		BloomFilter<Integer> filter = BloomFilter.create(

				  Funnels.integerFunnel(),

				  500,

				  0.01);

		//导入数据到filter

		for(int i = 0; i < 100; i++ )

		{

			filter.put(i);

		}

		//数据持久化到本地

		File f= new File("d:" + File.separator + "test2");

		OutputStream out = null;

		out = new FileOutputStream(f);    

		try {

			filter.writeTo(out);

		} catch (IOException e) {

			// TODO Auto-generated catch block

			e.printStackTrace();

		}

		//测试验证

		for(int i = 0 ; i < 10; i++)

		{

			boolean result = filter.mightContain(i);

			if(result)

			{

				System.out.println("i = " + i + " " + result);

			}

		}

	}

}

读取持久化数据

import java.io.File;

import java.io.FileInputStream;

import java.io.FileNotFoundException;

import java.io.IOException;

import java.io.InputStream;

import com.google.common.hash.BloomFilter;

import com.google.common.hash.Funnels;

public class Demo2 {

	public static void main(String[] args) throws FileNotFoundException {

		BloomFilter<Integer> filter = BloomFilter.create(

				  Funnels.integerFunnel(),

				  500,

				  0.01);

		//将之前持久化的数据加载到Filter

		File f= new File("d:" + File.separator + "test2") ;

		InputStream in = null;

		in = new FileInputStream(f);

		try {

			filter = BloomFilter.readFrom(in,Funnels.integerFunnel());

		} catch (IOException e) {

			e.printStackTrace();

		}

		//测试验证

		for(int i = 0 ; i < 10; i++)

		{

			boolean result = filter.mightContain(i);

			if(result)

			{

				System.out.println("i = " + i + " " + result);

			}

		}

	}

}

Demo说明

Demo1：初始化filter对象，并导入测试数据，然后结合writeTo()方法将数据持久化到本地磁盘；

Demo1：初始化filter对象，读取Demo1持久化到磁盘的数据，然后将数据导入到filter；

测试验证：Demo1和Demo2都对创建后的filter进行了测试验证。

布隆过滤器(BloomFilter)持久化的更多相关文章

Spark布隆过滤器(bloomFilter)
数据过滤在很多场景都会应用到,特别是在大数据环境下.在数据量很大的场景实现过滤或者全局去重,需要存储的数据量和计算代价是非常庞大的.很多小伙伴第一念头肯定会想到布隆过滤器,有一定的精度损失,但是存储性 ...
HBase之八--(3)：Hbase 布隆过滤器BloomFilter介绍
布隆过滤器( Bloom filters) 数据块索引提供了一个有效的方法,在访问一个特定的行时用来查找应该读取的HFile的数据块.但是它的效用是有限的.HFile数据块的默认大小是64KB,这个大 ...
白话布隆过滤器BloomFilter
通过本文将了解到以下内容: 查找问题的一般思路布隆过滤器的基本原理布隆过滤器的典型应用布隆过滤器的工程实现场景说明: 本文阐述的场景均为普通单机服务器.并非分布式大数据平台,因为在大数据平台下 ...
【浅析】|白话布隆过滤器BloomFilter
通过本文将了解到以下内容: 查找问题的一般思路布隆过滤器的基本原理布隆过滤器的典型应用布隆过滤器的工程实现场景说明: 本文阐述的场景均为普通单机服务器.并非分布式大数据平台,因为在大数据平台下 ...
Hbase 布隆过滤器BloomFilter介绍
转载自:http://blog.csdn.net/opensure/article/details/46453681 1.主要功能提高随机读的性能 2.存储开销 bloom filter的数据存在S ...
海量数据处理之布隆过滤器BloomFilter算法
Bloom Filter是由Bloom在1970年提出的一种多哈希函数映射的快速查找算法.通常应用在一些需要快速判断某个元素是否属于集合,但是并不严格要求100%正确的场合.使用场景:数据量为100亿 ...
SpringBoot(18）---通过Lua脚本批量插入数据到Redis布隆过滤器
通过Lua脚本批量插入数据到布隆过滤器有关布隆过滤器的原理之前写过一篇博客: 算法(3)---布隆过滤器原理在实际开发过程中经常会做的一步操作,就是判断当前的key是否存在. 那这篇博客主要分为三 ...
guava布隆过滤器
pom引入依赖 <dependency> <groupId>com.google.guava</groupId> <artifactId>guava&l ...
浅谈布隆过滤器Bloom Filter
先从一道面试题开始: 给A,B两个文件,各存放50亿条URL,每条URL占用64字节,内存限制是4G,让你找出A,B文件共同的URL. 这个问题的本质在于判断一个元素是否在一个集合中.哈希表以O(1) ...

随机推荐

在HTML页面中获取当前项目根路径的方法
在HTML页面获取项目根路径的方法: function getRootPath(){ var curPageUrl = window.document.location.href; var rootP ...
图的存储结构的实现(C/C++实现)
存档: #include <stdio.h> #include <stdlib.h> #define maxv 10 #define max 10 typedef char e ...
Uva - 12050 Palindrome Numbers【数论】
题目链接:uva 12050 - Palindrome Numbers 题意:求第n个回文串思路:首先可以知道的是长度为k的回文串个数有9*10^(k-1),那么依次计算,得出n是长度为多少的串,然 ...
Flexbox 练习和总结
练习地址: http://flexboxfroggy.com/ Welcome to Flexbox Froggy, a game where you help Froggy and friends ...
使用gitbook 发布一个教程文档网站
gitbook是一个好用的发布电子书的项目:使用gitbook 可以在本地写好文档再远程推送到库:也可以在gitbook提供的在线平台上制作电子书:要想在自己的服务器上使用gitbook 发布一个网站 ...
JavaScript八张思维导图—数组用法
JS基本概念 JS操作符 JS基本语句 JS数组用法 Date用法 JS字符串用法 JS编程风格 JS编程实践不知不觉做前端已经五年多了,无论是从最初的jQuery还是现在火热的Angular,Vu ...
Mysql优化方面的知识
Mysql优化方面的知识第一方面:30种mysql优化sql语句查询的方法 1.对查询进行优化,应尽量避免全表扫描,首先应考虑在 where 及 order by 涉及的列上建立索引. 2.应尽量避 ...
Mac OS启动服务优化高级篇
一.Mac下的启动服务主要三个可配置的地方 1.系统偏好设置->帐户->登陆项 2./System/Library/StartupItems 和 /Library/StartupItems ...
hql(Hibernate Query Language)
1.Criteria查询对查询条件进行了面向对象封装,符合编程人员的思维方式,不过HQL(Hibernate Query Language)查询提供了更加丰富的和灵活的查询特性,因此Hibernate ...
vue中组件之间的相互调用，及通用后台管理系统左侧菜单树的迭代生成
由于本人近期开始学习使用vue搭建一个后端管理系统的前端项目,在左侧生成菜单树的时候遇到了一些问题.在这里记录下分析:由于本人设定的菜单可以使多级结构,直接使用vue的v-for 遍历并不是很方便. ...

布隆过滤器(BloomFilter)持久化

摘要

数据持久化

读取持久化数据

Demo说明

更多参考

布隆过滤器(BloomFilter)持久化的更多相关文章

随机推荐

热门专题