hadoop 自定义OutputFormat

1、继承FileOutputFormat，复写getRecordWriter方法

/**

 * @Description:自定义outputFormat，输出数据到不同的文件

 */

public class FilterOutputFormat extends FileOutputFormat<Text, NullWritable> {

    @Override

    public RecordWriter<Text, NullWritable> getRecordWriter(TaskAttemptContext job) throws IOException, InterruptedException {

        return new FRecordWriter(job);

    }

}

2、实现RecordWriter

/**

 * @Description: 继承RecordWriter，实现数据输出到不同目录文件

 */

public class FRecordWriter extends RecordWriter<Text, NullWritable> {

    FSDataOutputStream out1 = null;

    FSDataOutputStream out2 = null;

    @Override

    public void write(Text key, NullWritable value) throws IOException, InterruptedException {

        // 判断是否包含“baidu”和"alibaba"字符串,输出到不同文件

        if (key.toString().contains("baidu") || key.toString().contains("alibaba")) {

            out1.write(key.toString().getBytes());

        } else {

            out2.write(key.toString().getBytes());

        }

    }

    @Override

    public void close(TaskAttemptContext context) throws IOException, InterruptedException {

        IOUtils.closeStream(out1);

        IOUtils.closeStream(out2);

    }

    public FRecordWriter(TaskAttemptContext job) {

        FileSystem fs;

        try {

            Path path1 = new Path("output1/a.log");

            Path path2 = new Path("output2/b.log");

            System.out.println(path1.getName());

            System.out.println(path2.getName());

            fs = FileSystem.get(job.getConfiguration());

            out1 = fs.create(path1);

            out2 = fs.create(path2);

        }catch (Exception e){

            e.printStackTrace();

        }

    }

}

3、map

/**

 * @Description: 按行读取，按行写入

 */

public class FilterMapper extends Mapper<LongWritable, Text, Text, NullWritable> {

    @Override

    protected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {

        context.write(value,NullWritable.get());

    }

}

4、reducer

public class FilterReducer extends Reducer<Text, NullWritable,Text,NullWritable> {

    private Text newLine = new Text();

    @Override

    protected void reduce(Text key, Iterable<NullWritable> values, Context context) throws IOException, InterruptedException {

        //循环null值的values是防止key里有重复的数据没有被取出

        //Iterable<NullWritable> values迭代器里存储了key和value（虽然本例中value都是null值）

        //通过循环迭代器，迭代器里的key值也会被不断取出赋值到Text key中（公用内存地址）

        for (NullWritable value : values) {

            newLine.set(key.toString()+"\r\n");

            context.write(newLine,value);

        }

    }

}

5、driver

/**

 * @Description: 自定义输出

 * 实现对样本按行分割，判断是否包含baidu或alibaba字符串，

 * 包含则写入目录1，不包含写入目录2，

 */

public class FilterDriver {

   public static void main(String args[]) throws Exception{

       if(args.length!=2)

       {

           System.err.println("使用格式：FilterDriver <input path> <output path>");

           System.exit(-1);

       }

       Configuration conf = new Configuration();

       Job job = Job.getInstance(conf);

       job.setJarByClass(FilterDriver.class);

       job.setMapperClass(FilterMapper.class);

       job.setReducerClass(FilterReducer.class);

       job.setMapOutputKeyClass(Text .class);

       job.setMapOutputValueClass(NullWritable .class);

       job.setOutputKeyClass(Text.class);

       job.setOutputValueClass(NullWritable.class);

       // 要将自定义的输出格式组件设置到job中

       job.setOutputFormatClass(FilterOutputFormat.class);

       FileInputFormat.setInputPaths(job, new Path(args[0]));

       // 虽然我们自定义了outputformat，但是因为我们的outputformat继承自fileoutputformat

       // 而fileoutputformat要输出一个_SUCCESS文件，所以，在这还得指定一个输出目录

       FileOutputFormat.setOutputPath(job, new Path(args[1]));

       Path outPath = new Path(args[1]);

       FileSystem fs = FileSystem.get(conf);

       if(fs.exists(outPath)){

           fs.delete(outPath,true);

       }

       boolean result = job.waitForCompletion(true);

       System.exit(result ? 0 : 1);

   }

}

hadoop 自定义OutputFormat的更多相关文章

[Hadoop] - 自定义Mapreduce InputFormat&OutputFormat
在MR程序的开发过程中,经常会遇到输入数据不是HDFS或者数据输出目的地不是HDFS的,MapReduce的设计已经考虑到这种情况,它为我们提供了两个组建,只需要我们自定义适合的InputFormat ...
Hadoop案例（五）过滤日志及自定义日志输出路径（自定义OutputFormat)
过滤日志及自定义日志输出路径(自定义OutputFormat) 1.需求分析过滤输入的log日志中是否包含xyg (1)包含xyg的网站输出到e:/xyg.log (2)不包含xyg的网站输出到e: ...
Hadoop_27_MapReduce_运营商原始日志增强(自定义OutputFormat)
1.需求: 现有一些原始日志需要做增强解析处理,流程: 1. 从原始日志文件中读取数据(日志文件:https://pan.baidu.com/s/12hbDvP7jMu9yE-oLZXvM_g) 2. ...
Hadoop自定义类型处理手机上网日志
job提交源码分析在eclipse中的写的代码如何提交作业到JobTracker中的哪?(1)在eclipse中调用的job.waitForCompletion(true)实际上执行如下方法 con ...
第3节 mapreduce高级：7、自定义outputformat实现输出到不同的文件夹下面
2.1 需求现在有一些订单的评论数据,需求,将订单的好评与差评进行区分开来,将最终的数据分开到不同的文件夹下面去,数据内容参见资料文件夹,其中数据第九个字段表示好评,中评,差评.0:好评,1:中评, ...
MapReduce之自定义OutputFormat
@ 目录 OutputFormat接口实现类自定义OutputFormat使用场景及步骤使用场景自定义OutputFormat 案例实操 OutputFormat接口实现类 OutputForm ...
关于spark写入文件至文件系统并制定文件名之自定义outputFormat
引言: spark项目中通常我们需要将我们处理之后数据保存到文件中,比如将处理之后的RDD保存到hdfs上指定的目录中,亦或是保存在本地 spark保存文件: 1.rdd.saveAsTextFile ...
Hadoop自定义分组Group
matadata: hadoop a spark a hive a hbase a tachyon a storm a redis a 自定义分组 import org.apache.hadoop.c ...
Hadoop日记Day13---使用hadoop自定义类型处理手机上网日志
测试数据的下载地址为:http://pan.baidu.com/s/1gdgSn6r 一.文件分析首先可以用文本编辑器打开一个HTTP_20130313143750.dat的二进制文件,这个文件的内 ...

随机推荐

在Python中反向遍历序列(列表、字符串、元组等)的五种方式
1. reversed() a = [1, 2, 3, 4] for i in reversed(a): print(i) 2. range(len(a)-1, -1, -1) a = [1, 2, ...
springboot之jpa支持
相关pom依赖: <dependency> <groupId>org.springframework.boot</groupId> <artifactId&g ...
爬虫selenium中动作链接ActionChains
一.基本语法生成一个动作actions=ActionChains(driver) 动作添加方法actions.方法执行 actions.perform() 二.方法列表 click(on_elem ...
Add a Simple Action添加简单按钮
In this lesson, you will learn how to create a Simple Action. For this purpose, a new View Controlle ...
JQuery Deferred对象使用小结
场景描述如下,打开页面时,获取默认选中的项目,同时也会初始化Combobox下拉框下拉列表数据问题描述获取默认选中项目及下拉列表的js函数位于common.js文件,类似如下: // 根据项目类 ...
在vue组件中设置定时器和清除定时器
由于项目中难免会碰到需要实时刷新,无论是获取短信码,还是在支付完成后轮询获取当前最新支付状态,这时就需要用到定时器.但是,定时器如果不及时合理地清除,会造成业务逻辑混乱甚至应用卡死的情况,这个时就需要 ...
choose Perseverance :)
心里话很久都没有更新博客了,我会陆陆续续的把云笔记中的一些有意思的文章放在博客中. 这10个月以来经历了很多,9月份参加了省赛获得了一个二等奖,和一等奖失之交臂的滋味很难受,到10月份开始维护自己的 ...
rdd里的foreach无法对外界产生影响
rdd只能用Map返回结果.里面的操作对外界毫无影响因为rdd是分区进行的,都是各个位置的操作,所以为保证数据没有问题,其中的数据对外界操作没有影响想要有影响,就将rdd.collect()实例化 ...
oracle体系结构简介
oracle体系结构简介一.物理存储结构 1.数据文件存放数据库数据,以dbf为扩展名.将数据放在多个数据文件中, 再将数据文件分放在不同的硬盘中,可以提高存取速度. ...
Django—开发具体流程
1.创建Django项目 [root@localhost ~]# django-admin startproject 项目名 [root@localhost ~]# django-admin star ...

hadoop 自定义OutputFormat

hadoop 自定义OutputFormat的更多相关文章

随机推荐

热门专题