简介

可以自定义输出的格式和文件，例如包含某字段的输出到一个指定文件，不包含某字段的输出到另一个文件。

案例

数据

www.nevesettle.com

www.baidu.com

www.qq.com

www.mi.com

www.jd.com

www.std.com

Mapper

package com.neve.outputformat;

import org.apache.hadoop.io.LongWritable;

import org.apache.hadoop.io.NullWritable;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.Mapper;

import java.io.IOException;

public class LogMapper extends Mapper<LongWritable, Text,Text, NullWritable> {

    @Override

    protected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {

        context.write(value,NullWritable.get());

    }

}

Reducer

package com.neve.outputformat;

import org.apache.hadoop.io.NullWritable;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.Reducer;

import java.io.IOException;

public class LogReducer extends Reducer<Text, NullWritable,Text,NullWritable> {

    @Override

    protected void reduce(Text key, Iterable<NullWritable> values, Context context) throws IOException, InterruptedException {

        for (NullWritable value : values) {

            context.write(key,value);

        }

    }

}

Driver

package com.neve.outputformat;

import com.neve.phone.FlowBean;

import com.neve.phone.FlowMapper;

import com.neve.phone.FlowReducer;

import org.apache.hadoop.conf.Configuration;

import org.apache.hadoop.fs.Path;

import org.apache.hadoop.io.NullWritable;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.Job;

import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;

import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

import java.io.IOException;

public class LogDriver {

    public static void main(String[] args) throws IOException, ClassNotFoundException, InterruptedException {

        //1.创建配置

        Configuration configuration = new Configuration();

        //2.创建job

        Job job = Job.getInstance(configuration);

        //3.关联驱动类

        job.setJarByClass(LogDriver.class);

        //4.关联mapper和reducer类

        job.setMapperClass(LogMapper.class);

        job.setReducerClass(LogReducer.class);

        //5.设置mapper的输出值和value

        job.setMapOutputKeyClass(Text.class);

        job.setMapOutputValueClass(NullWritable.class);

        //6.设置最终的输出值和value

        job.setOutputKeyClass(Text.class);

        job.setOutputValueClass(NullWritable.class);

        //7.设置输入输出路径

        FileInputFormat.setInputPaths(job,new Path("F:\\Workplace\\IDEA_Workplace\\hadoopStudy2\\outputformatinput"));

        FileOutputFormat.setOutputPath(job,new Path("F:\\Workplace\\IDEA_Workplace\\hadoopStudy2\\outputformatoutput"));

        //设置自定义的format类

        job.setOutputFormatClass(LogOutputFormat.class);

        //8.提交job

        job.waitForCompletion(true);

    }

}

LogOutputFormat

package com.neve.outputformat;

import org.apache.hadoop.io.NullWritable;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.RecordWriter;

import org.apache.hadoop.mapreduce.TaskAttemptContext;

import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

import java.io.IOException;

public class LogOutputFormat extends FileOutputFormat<Text, NullWritable> {

    public RecordWriter<Text, NullWritable> getRecordWriter(TaskAttemptContext job) throws IOException, InterruptedException {

        LogRecordWriter logw = new LogRecordWriter(job);

        return logw;

    }

}

LogRecordWriter

package com.neve.outputformat;

import org.apache.hadoop.fs.FSDataOutputStream;

import org.apache.hadoop.fs.FileSystem;

import org.apache.hadoop.fs.Path;

import org.apache.hadoop.io.IOUtils;

import org.apache.hadoop.io.NullWritable;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.RecordWriter;

import org.apache.hadoop.mapreduce.TaskAttemptContext;

import java.io.IOException;

public class LogRecordWriter extends RecordWriter<Text, NullWritable> {

    //定义输出路径

    private String nelog = "F:\\nelog.log";

    private String otherlog = "F:\\otherlog.log";

    private FileSystem fs ;

    private FSDataOutputStream neos;

    private FSDataOutputStream otheros;

    public LogRecordWriter(TaskAttemptContext job) throws IOException {

        //获取文件系统对象

        fs = FileSystem.get(job.getConfiguration());

        neos = fs.create(new Path(nelog));

        otheros = fs.create(new Path(otherlog));

    }

    public void write(Text key, NullWritable value) throws IOException, InterruptedException {

        String string = key.toString();

        if (string.contains("neve")){

            neos.writeBytes(string + "\r");

        }else {

            otheros.writeBytes(string + "\r");

        }

    }

    public void close(TaskAttemptContext context) throws IOException, InterruptedException {

        IOUtils.closeStream(neos);

        IOUtils.closeStream(otheros);

    }

}

OutputFormat---自定义输出方式的更多相关文章

自定义实现InputFormat、OutputFormat、输出到多个文件目录中去、hadoop1.x api写单词计数的例子、运行时接收命令行参数，代码例子
一:自定义实现InputFormat *数据源来自于内存 *1.InputFormat是用于处理各种数据源的,下面是实现InputFormat,数据源是来自于内存. *1.1 在程序的job.setI ...
Log4j扩展使用--自定义输出
写在前面的话 log4j支持自定义的输出.所有的输出都实现了自Appender接口.一般来说,自定义输出值需要继承AppenderSkeleton类,并实现几个方法就可以了. 写这篇博客,我主要也是想 ...
类模板、Stack的类模板实现（自定义链栈方式，自定义数组方式）
一.类模板类模板:将类定义中的数据类型参数化类模板实际上是函数模板的推广,可以用相同的类模板来组建任意类型的对象集合 (一).类模板的定义 template <类型形参表> clas ...
Flink FileSink 自定义输出路径——StreamingFileSink、BucketingSink 和 StreamingFileSink简单比较
接上篇:Flink FileSink 自定义输出路径——BucketingSink 上篇使用BucketingSink 实现了自定义输出路径,现在来看看 StreamingFileSink( 据说是S ...
JavaScript中常用的数据输出方式解析
在js中,一般使用如下几种方式进行数据的输出: 1. 在浏览器的控制台输出浏览器F12打开浏览器控制台(一般前端开发人员必备浏览器为谷歌浏览器,下面就以谷歌浏览器为例对控制台尽心解析): 1.1 E ...
MapReduce05 框架原理OutPutFormat数据输出
目录 4.OutputFormat数据输出 OutputFormat接口实现类自定义OutputFormat 自定义OutputFormat步骤自定义OutputFormat案例需求需求分析 ...
Lrc2srt精灵，增加自定义输出编码
2015.4.8 对中文支持有点问题,修改了一下,支持自定义输出编码! 修改了建议行末偏移,通常100到200最好了,人的反应时间! http://files.cnblogs.com/files/ro ...
EDIUS设置自定义输出的方法
在做后期视频剪辑时,往往根据需求,需要输出不同分辨率格式的视频文件,那在EDIUS中,如何自定义输出设置,使之符合自己的需要呢?下面小编就来详细讲讲EDIUS自定义输出的一二事吧. 当剪辑完影片,设置 ...
Qt在VS2013或Qt Creator 中的控制台输出方式设置
首先值得注意的是:在写程序的时候,项目保存路径不要涉及到中文,否则容易出错! 一.Qt在VS2013中的控制台输出方式: 注意:这里是而不是Qt Application. 然后直接点击finish即可 ...

随机推荐

解决 cannot resolve 依赖包的问题
在maven import的时候报这样的错误之前也经常碰到这样的错误,通过reimport.清缓存等方法都可以解决.但这次试了好多次都还是这样,查看maven后发现我pom文件里也没写错. 最后是 ...
Oracle数据库操作相关
1. 导出dmp 文件 (1)导出数据库所有的用户数据: exp system/manage@ORCL file=D:\oracle_dmp\data1.dmp full=y (2)导出指定的用户数据 ...
【linux】led子系统
目录前言 linux子系统 led子系统 led子系统实战-系统调用-ARM平台前言接下来记录的是 led子系统目前不涉及驱动源码 linux子系统在 Linux 系统中绝大多数硬件设备都 ...
SpringBoot Redis切换数据库遇到的坑
项目不同业务的redis数据存在不同的库中,操作数据需要切换redis库,在网上找了一段代码,确实可以切换数据库.但是使用一段时间后发现部分数据存储的数据库不正确,排查后发现setDatabase是线 ...
USACO 2020 OPEN Favorite Colors【并查集-启发式合并-思考】
题目链接题意简述仰慕喜欢同色奶牛的奶牛喜欢同色 (禁止套娃 ,求一种方案,奶牛喜欢的颜色种数最多,多种方案求字典序最小. 题目解析这道题我最先想到的居然是二分+并查集,我在想啥咳咳首先,考虑 ...
还是畅通工程(最小生成树并查集 Prim Kruskal)
Description 某省调查乡村交通状况,得到的统计表中列出了任意两村庄间的距离.省政府"畅通工程"的目标是使全省任何两个村庄间都可以实现公路交通(但不一定有直接的公路相连,只 ...
PHP代码审计入门(敏感函数回溯参数过程)
最近开始啃<代码审计企业级web代码安全架构>这本书,这一章内容看了2天很多内容都理解最主要的是对PHP不熟练所以现在理解了大概然后进行实地环境搭建最主要的是源码百度真不好找最后找到一 ...
查看mongodb状态
netstat -ntlp|grep 27017
hectf2020部分简单题题解wp
HECTF 我真是又菜又没时间肝题..又又又只水了波简单题... Reverse 1.Hello_Re file查一波 32bit,拖进IDA中老规矩shift+F12 查看字符串: 跳转 F5查看 ...
【PYTEST】第二章编写测试函数
知识点: assert 测试函数标记跳过测试标记预期失败的测试用例 1. asseet 返回的都是布尔值,等于False(F) 就是失败, assert 有很多 assert something ...

OutputFormat---自定义输出方式

简介

案例

OutputFormat---自定义输出方式的更多相关文章

随机推荐

热门专题