Hadoop DistributedCache分布式缓存的使用

做项目的时候遇到一个问题，在Mapper和Reducer方法中处理目标数据时，先要去检索和匹配一个已存在的标签库，再对所处理的字段打标签。因为标签库不是很大，没必要用HBase。我的实现方法是把标签库存储成HDFS上的文件，用分布式缓存存储，这样让每个slave都能读取到这个文件。

main方法中的配置：

//分布式缓存要存储的文件路径

String cachePath[] = {

                "hdfs://10.105.32.57:8020/user/ad-data/tag/tag-set.csv",

                "hdfs://10.105.32.57:8020/user/ad-data/tag/TagedUrl.csv"

        };

//向分布式缓存中添加文件

        job.addCacheFile(new Path(cachePath[]).toUri());

        job.addCacheFile(new Path(cachePath[]).toUri());

参考上面代码即可向分布式缓存中添加文件。

在Mapper和Reducer方法中读取分布式缓存文件：

/*

 * 重写Mapper的setup方法，获取分布式缓存中的文件

 */

    @Override

    protected void setup(Mapper<LongWritable, Text, Text, Text>.Context context)

                   throws IOException, InterruptedException {

        // TODO Auto-generated method stub

        super.setup(context);

        URI[] cacheFile = context.getCacheFiles();

        Path tagSetPath = new Path(cacheFile[]);

        Path tagedUrlPath = new Path(cacheFile[]);

        文件操作(如把内容读到set或map中);

    }

@Override

public void map(LongWritable key, Text value, Context context)

            throws IOException, InterruptedException {

            在map()中使用读取出的数据;

      }

同样，如果在Reducer中也要读取分布式缓存文件，示例如下：

/*

 * 重写Reducer的setup方法，获取分布式缓存中的文件

 */

    @Override

    protected void setup(Context context)

                   throws IOException, InterruptedException {

        super.setup(context);

        mos = new MultipleOutputs<Text, Text>(context);

        URI[] cacheFile = context.getCacheFiles();

        Path tagSetPath = new Path(cacheFile[]);

        Path tagSetPath = new Path(cacheFile[]);

        文件读取操作;

    }

 @Override

  public void reduce(Text key, Iterable<Text> values, Context context)

              throws IOException, InterruptedException {

      while(values.iterator().hasNext()){

          使用读取出的数据;

      }

       context.write(key, new Text(sb.toString()));

      }

Hadoop DistributedCache分布式缓存的使用的更多相关文章

Hadoop 之分布式缓存的原理和方法——DistributedCache
1.什么时Hadoop的分布式缓存答:在执行MapReduce时,可能Mapper之间需要共享一些信息,如果信息量不大,可以将其从HDFS中加载到内存中,这就是Hadoop分布式缓存机制. 2.如何 ...
9.3.1 map端连接- DistributedCache分布式缓存小数据集
1.1.1 map端连接- DistributedCache分布式缓存小数据集当一个数据集非常小时,可以将小数据集发送到每个节点,节点缓存到内存中,这个数据集称为边数据.用map函数 ...
.net 分布式架构之分布式缓存中间件
开源git地址: http://git.oschina.net/chejiangyi/XXF.BaseService.DistributedCache 分布式缓存中间件方便实现缓存的分布式,集群, ...
hadoop中的分布式缓存——DistributedCache
分布式缓存一个最重要的应用就是在进行join操作的时候,如果一个表很大,另一个表很小很小,我们就可以将这个小表进行广播处理,即每个计算节点上都存一份,然后进行map端的连接操作,经过我的实验验证,这 ...
hadoop 分布式缓存
Hadoop 分布式缓存实现目的是在所有的MapReduce调用一个统一的配置文件,首先将缓存文件放置在HDFS中,然后程序在执行的过程中会可以通过设定将文件下载到本地具体设定如下: public s ...
深入浅出Hive企业级架构优化、Hive Sql优化、压缩和分布式缓存(企业Hadoop应用核心产品)
一.本课程是怎么样的一门课程(全面介绍) 1.1.课程的背景作为企业Hadoop应用的核心产品,Hive承载着FaceBook.淘宝等大佬 95%以上的离线统计,很多企业里的离线统 ...
分布式缓存DistributedCache的使用
分布式缓存用于将使用的小文件首先分发到各个datanode节点上,然后利用map/reduce阶段的setup()方法将文件内容读入内存,加快程序执行.具体实现方法如下: http://demievi ...
大数据【四】MapReduce（单词计数；二次排序；计数器；join；分布式缓存）
前言: 根据前面的几篇博客学习,现在可以进行MapReduce学习了.本篇博客首先阐述了MapReduce的概念及使用原理,其次直接从五个实验中实践学习(单词计数,二次排序,计数器,join,分 ...
MapReduce中的分布式缓存使用
MapReduce中的分布式缓存使用 @(Hadoop) 简介 DistributedCache是Hadoop为MapReduce框架提供的一种分布式缓存机制,它会将需要缓存的文件分发到各个执行任务的 ...

随机推荐

DateTime数据类型保存问题(DateTime2)
DateTime And DateTime2 问题: 从 datetime2 数据类型到 datetime 数据类型的转换产生一个超出范围的值原因: EF中model存在datetime类型的字段, ...
JS基础---->javascript的基础(一)
记录一些javascript的基础知识.只是一起走过一段路而已,何必把怀念弄的比经过还长. javascript的基础一.在检测一个引用类型值和 Object 构造函数时, instanceof 操 ...
JS方法 - 字符串处理函数封装汇总 (更新中...)
一.计算一段字符串的字节长度字符串的charCodeAt()方法, 可返回字符串固定位置的字符的Unicode编码,这个返回值是0-65535之间的整数,如果值<=255时为英文,反之为中文. ...
vue案例 - 使用vue实现自定义多选与单选的答题功能
4月底立得flag,五月底插上小旗,结果拖到六月底七月初才来执行.说什么工作忙都是借口,就是睡的比猪早,起的比猪晚. 本来实现多选单选这个功能,vue组件中在表单方面提供了一个v-model指令,非常 ...
【Eclipse】启动时报错：No Java virtual machine （已解决）
在 Ubuntu 上下了个最新的 Eclipse ,解压后运行报这样的错误: 当然 JDK 的安装及环境变量的配置是没有问题的.使用 java -version 查询本机的JDK版本是可以的. 如果不 ...
css3整理--text-overflow
text-overflow语法: text-overflow : clip | ellipsis clip:表示不显示省略标记(...),而只是简单的裁切,需要在一定的高度范围内配合overflow: ...
SSL是什么？如何使用？
SSL(Secure Sockets Layer 安全套接层),及其继任者传输层安全(Transport Layer Security,TLS)是为网络通信提供安全及数据完整性的一种安全协议.TLS与 ...
解决VMware安装Ubuntu的过程中窗口过小无法看到按钮的问题
最近在用VMware安装Ubuntu的时候,发现竟然只能看到部分界面,鼠标拖拽也没有用,就是看不到完整的界面,那要我怎么按下一步啊~(真是哭笑不得%>_<%),或者按TAB键,靠自己的想象 ...
Junit3和Junit4使用区别
在项目经常会用到单元测试,这里对Junit在开发中的使用标准及使用方法进行简单的介绍. 1.包目录的定义以及相关jar包的添加 2.Junit3和Junit4分别对测试类的编写所测试的源代码: pa ...
Android开发之ActionBar
使用微信APP的小伙伴对于微信的ActionBar一定有印象,今天就带领大家一起实现以下这个效果. 第一步打开我们的开发工具,这里我使用的是Eclipse+ADT插件,然后创建我们的工程,这里选择An ...

Hadoop DistributedCache分布式缓存的使用

Hadoop DistributedCache分布式缓存的使用的更多相关文章

随机推荐

热门专题