Hadoop Bloom filter应用示例
1. 简介
参见《Hadoop in Action》P102 以及 《Hadoop实战(第2版)》(陆嘉恒)P69
2. 案例
网上大部分的说明仅仅是按照《Hadoop in Action》中的示例代码给出,这里是Hadoop0.20.2版本,在该版本中已经实现了BloomFilter。
案例文件如下:
customers.txt
1,Stephanie Leung,555-555-5555
2,Edward Kim,123-456-7890
3,Jose Madriz,281-330-8004
4,David Stork,408-555-0000
-----------------------------------------------------------------
orders.txt
3,A,12.95,02-Jun-2008
1,B,88.25,20-May-2008
2,C,32.00,30-Nov-2007
3,D,25.02,22-Jan-2009
5,E,34.59,05-Jan-2010
6,F,28.67,16-Jan-2008
7,G,49.82,24-Jan-2009
两个文件通过customer ID关联。
3. 代码
- import java.io.BufferedReader;
- import java.io.IOException;
- import java.io.InputStreamReader;
- import java.util.ArrayList;
- import org.apache.hadoop.conf.Configuration;
- import org.apache.hadoop.fs.FSDataInputStream;
- import org.apache.hadoop.fs.FileSystem;
- import org.apache.hadoop.fs.Path;
- import org.apache.hadoop.io.Text;
- import org.apache.hadoop.mapreduce.Job;
- import org.apache.hadoop.mapreduce.Mapper;
- import org.apache.hadoop.mapreduce.Reducer;
- import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
- import org.apache.hadoop.mapreduce.lib.input.FileSplit;
- import org.apache.hadoop.mapreduce.lib.input.TextInputFormat;
- import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
- import org.apache.hadoop.mapreduce.lib.output.TextOutputFormat;
- import org.apache.hadoop.util.GenericOptionsParser;
- import org.apache.hadoop.util.bloom.BloomFilter;
- import org.apache.hadoop.util.bloom.Key;
- import org.apache.hadoop.util.hash.Hash;
- public class BloomMRMain {
- public static class BloomMapper extends Mapper<Object, Text, Text, Text> {
- BloomFilter bloomFilter = new BloomFilter(10000, 6, Hash.MURMUR_HASH);
- protected void setup(Context context) throws IOException ,InterruptedException {
- Configuration conf = context.getConfiguration();
- String path = "hdfs://localhost:9000/user/hezhixue/input/customers.txt";
- Path file = new Path(path);
- FileSystem hdfs = FileSystem.get(conf);
- FSDataInputStream dis = hdfs.open(file);
- BufferedReader reader = new BufferedReader(new InputStreamReader(dis));
- String temp;
- while ((temp = reader.readLine()) != null) {
- // System.out.println("bloom filter temp:" + temp);
- String[] tokens = temp.split(",");
- if (tokens.length > 0) {
- bloomFilter.add(new Key(tokens[0].getBytes()));
- }
- }
- }
- protected void map(Object key, Text value, Context context) throws IOException ,InterruptedException {
- //获得文件输入路径
- String pathName = ((FileSplit) context.getInputSplit()).getPath().toString();
- if (pathName.contains("customers")) {
- String data = value.toString();
- String[] tokens = data.split(",");
- if (tokens.length == 3) {
- String outKey = tokens[0];
- String outVal = "0" + ":" + tokens[1] + "," + tokens[2];
- context.write(new Text(outKey), new Text(outVal));
- }
- } else if (pathName.contains("orders")) {
- String data = value.toString();
- String[] tokens = data.split(",");
- if (tokens.length == 4) {
- String outKey = tokens[0];
- System.out.println("in map and outKey:" + outKey);
- if (bloomFilter.membershipTest(new Key(outKey.getBytes()))) {
- String outVal = "1" + ":" + tokens[1] + "," + tokens[2]+ "," + tokens[3];
- context.write(new Text(outKey), new Text(outVal));
- }
- }
- }
- }
- }
- public static class BloomReducer extends Reducer<Text, Text, Text, Text> {
- ArrayList<Text> leftTable = new ArrayList<Text>();
- ArrayList<Text> rightTable = new ArrayList<Text>();
- protected void reduce(Text key, Iterable<Text> values, Context context) throws IOException ,InterruptedException {
- leftTable.clear();
- rightTable.clear();
- for (Text val : values) {
- String outVal = val.toString();
- System.out.println("key: " + key.toString() + " : " + outVal);
- int index = outVal.indexOf(":");
- String flag = outVal.substring(0, index);
- if ("0".equals(flag)) {
- leftTable.add(new Text(outVal.substring(index+1)));
- } else if ("1".equals(flag)) {
- rightTable.add(new Text(outVal.substring(index + 1)));
- }
- }
- if (leftTable.size() > 0 && rightTable.size() > 0) {
- for(Text left : leftTable) {
- for (Text right : rightTable) {
- context.write(key, new Text(left.toString() + "," + right.toString()));
- }
- }
- }
- }
- }
- public static void main(String[] args) throws Exception {
- Configuration conf = new Configuration();
- String[] otherArgs = new GenericOptionsParser(conf, args).getRemainingArgs();
- if (otherArgs.length != 2) {
- System.err.println("Usage: BloomMRMain <in> <out>");
- System.exit(2);
- }
- Job job = new Job(conf, "BloomMRMain");
- job.setJarByClass(BloomMRMain.class);
- job.setMapperClass(BloomMapper.class);
- job.setReducerClass(BloomReducer.class);
- job.setInputFormatClass(TextInputFormat.class);
- job.setOutputFormatClass(TextOutputFormat.class);
- job.setMapOutputKeyClass(Text.class);
- job.setMapOutputValueClass(Text.class);
- job.setOutputKeyClass(Text.class);
- job.setOutputValueClass(Text.class);
- FileInputFormat.addInputPath(job, new Path(otherArgs[0]));
- FileOutputFormat.setOutputPath(job, new Path(otherArgs[1]));
- System.exit(job.waitForCompletion(true) ? 0 : 1);
- }
- }
Hadoop Bloom filter应用示例的更多相关文章
- Hadoop Bloom Filter 使用
1.Bloom Filter 默认的 BloomFilter filter =new BloomFilter(10,2,1); // 过滤器长度为10 ,用2哈希函数,MURMUR_HASH (1) ...
- Bloom Filter 原理与应用
介绍 Bloom Filter是一种简单的节省空间的随机化的数据结构,支持用户查询的集合.一般我们使用STL的std::set, stdext::hash_set,std::set是用红黑树实现的,s ...
- Hadoop0.20.2 Bloom filter应用演示样例
1. 简单介绍 參见<Hadoop in Action>P102 以及 <Hadoop实战(第2版)>(陆嘉恒)P69 2. 案例 网上大部分的说明不过依照<Hadoop ...
- Skip List & Bloom Filter
Skip List | Set 1 (Introduction) Can we search in a sorted linked list in better than O(n) time?Th ...
- Bloom Filter:海量数据的HashSet
Bloom Filter一般用于数据的去重计算,近似于HashSet的功能:但是不同于Bitmap(用于精确计算),其为一种估算的数据结构,存在误判(false positive)的情况. 1. 基本 ...
- 探索C#之布隆过滤器(Bloom filter)
阅读目录: 背景介绍 算法原理 误判率 BF改进 总结 背景介绍 Bloom filter(后面简称BF)是Bloom在1970年提出的二进制向量数据结构.通俗来说就是在大数据集合下高效判断某个成员是 ...
- Bloom Filter 布隆过滤器
Bloom Filter 是由伯顿.布隆(Burton Bloom)在1970年提出的一种多hash函数映射的快速查找算法.它实际上是一个很长的二进制向量和一些列随机映射函数.应用在数据量很大的情况下 ...
- Bloom Filter学习
参考文献: Bloom Filters - the math http://pages.cs.wisc.edu/~cao/papers/summary-cache/node8.html B ...
- 【转】探索C#之布隆过滤器(Bloom filter)
原文:蘑菇先生,http://www.cnblogs.com/mushroom/p/4556801.html 背景介绍 Bloom filter(后面简称BF)是Bloom在1970年提出的二进制向量 ...
随机推荐
- spring源码学习之【准备】jdk动态代理例子
一:被代理的对象所要实现的接口 package com.yeepay.testpoxy; import java.util.Map; /** * 被动态代理的接口 * @author shangxia ...
- 关于margin和padding的总结
总结一下: 要想实现如(图一)效果,(即一个div中的子元素与父元素有间距): 如果类名为.middle的父元素没有写border,则类名为firstChild的子元素设置margin-top,会导致 ...
- C++静态存储,动态存储
什么是静态存储,动态存储静态存储变量通常是在变量定义时就分定存储单元并一直保持不变, 直至整个程序结束. 动态存储变量是在程序执行过程中,使用它时才分配存储单元, 使用完毕立即释放.典型的例子是函数的 ...
- 如何使用投影看着备注分享自己的PPT
1. 设置多屏幕 一般你的笔记本就是1, 投影是2 2. 设置幻灯片的放映方式 设置幻灯片显示于另外一个监视器 并勾选显示演示者视图 3. 点击放映 就会出现 左上角是ppt本身, 右上角是 ...
- ASP.NET MVC中的拦截器
在ASP.NET MVC中,有三种拦截器:Action拦截器.Result拦截器和Exception拦截器, 所谓的拦截器也没有什么的,只是写一个类,继承另一个类和一个接口,顺便实现接口里面的方法而以 ...
- Apache 性能优化
有一个升级服务器,这几天一直访问的比较慢.导致部分用户升级不了.看了一下服务器的负载,发现 CPU和内存占用的都不是很高,可能是Apache配置不当造成的,一番搜索,找到了MPM的配置,提速很明显哦 ...
- java找jar包、搜索class类 搜索maven
sourceforge.net https://github.com/ http://www.findmaven.net/搜索class类 http://mvnrepository.com/
- java通过ftp和sftp上传war包上传到Linux服务器实现自动重启tomcat的脚本代码
ar包自动上传Linux并且自动重启tomcat 用的是jdk1.7出的文件监控 支持ftp和sftp,支持多服务器负载等 配置好config 非maven项目导入直接使用 #\u76D1\u542C ...
- 常见的java 错误--转
Java常见错误列表: 找不到符号(symbol) 类X是public的,应该被声明在名为X.java的文件中 缺失类.接口或枚举类型 缺失X 缺失标识符 非法的表达式开头 类型不兼容 非法的方法声明 ...
- Zabbix的安装与部署---问题处理(php65.6.28 mysqli 报错误 处理)
1)php65.6.28 mysqli 报错误 处理 http://www.xiaochengfu.com/index.php/index/detail/aid/92.html 2)linux下p ...