MapReduce: map读取文件的过程

我们的输入文件 hello0, 内容如下:

xiaowang 28 shanghai@_@zhangsan 38 beijing@_@someone 100 unknown

逻辑上有3条记录, 它们以@_@分隔.

我们看看数据是如何被map读取的...

1. 默认配置

/*

 New API

  */

     //conf.set("textinputformat.record.delimiter", "@_@");

        /*

        job.setInputFormatClass(Format0.class);

        //job.setInputFormatClass(Format1.class);  error here

        //or,

        job.setInputFormatClass(Format3.class);

        //job.setInputFormatClass(Format4.class); error here

        job.setInputFormatClass(Format5.class);

        */

import java.io.IOException;

import org.apache.hadoop.conf.Configuration;

import org.apache.hadoop.fs.Path;

import org.apache.hadoop.io.IntWritable;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.Job;

import org.apache.hadoop.mapreduce.Mapper;

import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;

import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

public class Test0 {

public static class MyMapper extends Mapper<Object, Text, Text, IntWritable> {

    public void map(Object key, Text value, Context context)  throws IOException, InterruptedException

    {

        String line = value.toString();

        System.out.println(line);

    }

}

public static void main(String[] args) throws Exception {

         Configuration conf = new Configuration();

        Job job = Job.getInstance(conf);

        job.setJarByClass(Test0.class);

        job.setJobName("myjob");

        job.setMapperClass(MyMapper.class);

        FileInputFormat.addInputPath(job, new Path(args[0]));

        FileOutputFormat.setOutputPath(job, new Path(args[1]));

        job.waitForCompletion(true);

    }

}

Debug我们可以看到value的值是获取了文件的整个内容作为这一条记录的值的, 因为默认情况下是以换行符作为记录分割符的, 而文件内容中没有换行符. map只被调用1次

2. 配置textinputformat.record.delimiter

我们为Configuration设置textinputformat.record.delimiter参数-

conf.set("textinputformat.record.delimiter", "@_@");

这样map按照我们的预期读取记录, map被调用3次

3. 自定义TextInputFormat

自定义TextInputFormat, 在其RecordReader方法中设置需要的record delimiter

import org.apache.hadoop.mapreduce.InputSplit;

import org.apache.hadoop.mapreduce.RecordReader;

import org.apache.hadoop.mapreduce.TaskAttemptContext;

import org.apache.hadoop.mapreduce.lib.input.LineRecordReader;

import org.apache.hadoop.mapreduce.lib.input.TextInputFormat;

public class Format5 extends TextInputFormat {

    public RecordReader createRecordReader (InputSplit split, TaskAttemptContext tac) {

        byte[] recordDelimiterBytes = "@_@".getBytes();

        return new LineRecordReader(recordDelimiterBytes);

    }

}

应用到job上-

 job.setInputFormatClass(Format5.class);

这样得到和方法2一样的效果.

MapReduce: map读取文件的过程的更多相关文章

【原创】大数据基础之Spark（7）spark读取文件split过程（即RDD分区数量）
spark 2.1.1 spark初始化rdd的时候,需要读取文件,通常是hdfs文件,在读文件的时候可以指定最小partition数量,这里只是建议的数量,实际可能比这个要大(比如文件特别多或者特别 ...
linux中为什么删除文件比创建文件要快，读取文件和删除文件的过程是什么？
一.为什么删除文件比创建文件要快? 因为删除文件只是将bitmap位图表中将文件所占据的inode 和dacablock的使用状态从1变成0,相当于释放了这些快的使用权. 二.读取文件和删除文件的过程 ...
HTML5 文件域+FileReader 读取文件(一)
在HTML5以前,HTML的文件上传域的功能具有很大的局限性,这种局限性主要体现在如下两点: 每次只能选择一个文件进行上传客户端代码只能获取被上传文件的文件路径,无法访问实际的文件内容一.File ...
FileReader读取文件里文乱码问题
有一个UTF-8编码的文本文件,用FileReader读取到一个字符串,然后转换字符集:str=newString(str.getBytes(),"UTF-8");结果大部分中文显 ...
MapReduce剖析笔记之五：Map与Reduce任务分配过程
在上一节分析了TaskTracker和JobTracker之间通过周期的心跳消息获取任务分配结果的过程.中间留了一个问题,就是任务到底是怎么分配的.任务的分配自然是由JobTracker做出来的,具体 ...
关于一些对map和整行读取文件操作
public static void main(String[] args) { Map<String, String> map = new HashMap<String, Stri ...
登录shell与非登录shell读取文件过程
登录shell与非登录shell读取文件过程登录:/etc/profile→/etc/profile.d/*.sh ~/.bash_profile非登录:~/.bash_profile→ ...
【转】MapReduce：详解Shuffle过程
——转自:{http://langyu.iteye.com/blog/992916} Shuffle过程是MapReduce的核心,也被称为奇迹发生的地方.要想理解MapReduce, Shuffle ...
hadoop的mapReduce和Spark的shuffle过程的详解与对比及优化
https://blog.csdn.net/u010697988/article/details/70173104 大数据的分布式计算框架目前使用的最多的就是hadoop的mapReduce和Spar ...

随机推荐

C#中的抽象类与重写
今天的我们学习了好多,最初上午学习了文件流的方法,老师告诉我们是选修,可能以后不怎么用吧,但是还是想学下,似乎用个小程序读写文件很快地节奏,所以有点小兴趣学习,明天我再看看啦!今天之后学习了多态,继承 ...
PyQt4状态栏
主窗口 QMainWindow类用来创建应用程序的主窗口.通过该类,我们可以创建一个包含状态栏.工具栏和菜单栏的经典应用程序框架. 状态栏是用来显示状态信息的串口部件. #!/usr/bin/pyth ...
mysql show processlist 命令检查mysql lock
processlist命令的输出结果显示了有哪些线程在运行,可以帮助识别出有问题的查询语句,两种方式使用这个命令. 1. 进入mysql/bin目录下输入mysqladmin processlist; ...
LeetCode——Min Stack
Description: Design a stack that supports push, pop, top, and retrieving the minimum element in cons ...
vscode中的vue文件中emmet进行tab键不起作用
文件--首选项---设置搜索: emmet.includeLanguages在右边修改 "emmet.triggerExpansionOnTab": true, "em ...
CRUX下实现进程隐藏（1）
想必能找到这里的都是被吴一民的操作系统大作业坑过的学弟学妹了,当初我也是千辛万苦才把这个作业完成了,本着服务后辈的宗旨,尽量让学弟学妹少走弯路,我会把实现的大概思路记录下来.本系列一共三篇文章,分别实 ...
scss语法
SCSS其实就是SASS新语法, 增强了对CSS3语法的支持 1.变量(Variables) /*声明变明*/ $color: #333; $bgcolor:#f36; /*引用变量*/ body { ...
单用户模式进入centos
修改root密码----------------单用户模式操作个人原创博客,转载请注明,否则追究法律责任 author: headsen chen date: 2017-9-30 1,开机后,迅速按 ...
Video如何不自动全屏播放？
知乎:微信内置浏览器如何小窗不全屏播放视频? 目前在微信中只能全屏播放,只有加入腾讯白名单的视频才能小屏播放. 知乎上讨论的解决方案尚未测试,太麻烦了.
python 多线程ping大量服务器在线情况
需要ping一个网段所有机器的在线情况,shell脚步运行时间太长,用python写个多线程ping吧,代码如下: #!/usr/bin/python #coding=utf-8 ''' Create ...

MapReduce: map读取文件的过程

MapReduce: map读取文件的过程的更多相关文章

随机推荐

热门专题