MapReduce-TextInputFormat 切片机制

MapReduce 默认使用 TextInputFormat 进行切片，其机制如下

（1）简单地按照文件的内容长度进行切片

（2）切片大小，默认等于Block大小，可单独设置

（3）切片时不考虑数据集整体，而是逐个针对每一个文件单独切片

例如：

（1）输入数据有两个文件：

filel.txt 320M

file2.txt 10M

（2）经过 FilelnputFormat（TextInputFormat为其实现类）的切片机制运算后，形成的切片信息如下：

filel.txt.splitl--0~128

filel.txt.split2--128～256

filel.txt.split3--256～320

file2.txt.splitl--0～10M

测试读取数据的方式

输入数据（中间为空格，末尾为换行符）

map 阶段的 k-v

可以看出 k 为偏移量，v 为一行的值，即 TextInputFormat 按行读取

以 WordCount 为例进行测试，测试切片数

测试数据，三个相同的文件

测试代码

package com.mapreduce.wordcount;

import org.apache.hadoop.conf.Configuration;

import org.apache.hadoop.fs.Path;

import org.apache.hadoop.io.IntWritable;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.Job;

import org.apache.hadoop.mapreduce.Mapper;

import org.apache.hadoop.mapreduce.Reducer;

import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;

import org.apache.hadoop.mapreduce.lib.input.TextInputFormat;

import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

import org.apache.log4j.BasicConfigurator;

import java.io.IOException;

import java.util.StringTokenizer;

public class WordCount {

    static {

        try {

            // 设置 HADOOP_HOME 环境变量

            System.setProperty("hadoop.home.dir", "D:/DevelopTools/hadoop-2.9.2/");

            // 日志初始化

            BasicConfigurator.configure();

            // 加载库文件

            System.load("D:/DevelopTools/hadoop-2.9.2/bin/hadoop.dll");

        } catch (UnsatisfiedLinkError e) {

            System.err.println("Native code library failed to load.\n" + e);

            System.exit(1);

        }

    }

    public static void main(String[] args) throws Exception {

        args = new String[]{"D:\\tmp\\input2", "D:\\tmp\\456"};

        Configuration conf = new Configuration();

        Job job = Job.getInstance(conf, "word count");

        job.setJarByClass(WordCount.class);

        job.setMapperClass(TokenizerMapper.class);

        job.setCombinerClass(IntSumReducer.class);

        job.setReducerClass(IntSumReducer.class);

        job.setOutputKeyClass(Text.class);

        job.setOutputValueClass(IntWritable.class);

        // 设置 InputFormat，默认为 TextInputFormat.class，这里显式设置下，后面设置切片大小

        job.setInputFormatClass(TextInputFormat.class);

        TextInputFormat.setMinInputSplitSize(job, 1);

        TextInputFormat.setMaxInputSplitSize(job, 1024 * 1024 * 128);

        FileInputFormat.addInputPath(job, new Path(args[0]));

        FileOutputFormat.setOutputPath(job, new Path(args[1]));

        System.exit(job.waitForCompletion(true) ? 0 : 1);

    }

    public static class TokenizerMapper extends Mapper<Object, Text, Text, IntWritable> {

        private final static IntWritable one = new IntWritable(1);

        private Text word = new Text();

        @Override

        public void map(Object key, Text value, Context context) throws IOException, InterruptedException {

            // 查看 k-v

            System.out.println(key + "\t" + value);

            StringTokenizer itr = new StringTokenizer(value.toString());

            while (itr.hasMoreTokens()) {

                word.set(itr.nextToken());

                context.write(word, one);

            }

        }

    }

    public static class IntSumReducer extends Reducer<Text, IntWritable, Text, IntWritable> {

        private IntWritable result = new IntWritable();

        @Override

        public void reduce(Text key, Iterable<IntWritable> values, Context context) throws IOException, InterruptedException {

            int sum = 0;

            for (IntWritable val : values) {

                sum += val.get();

            }

            result.set(sum);

            context.write(key, result);

        }

    }

}

MapReduce-TextInputFormat 切片机制的更多相关文章

Hadoop(14)-MapReduce框架原理-切片机制
1.FileInputFormat切片机制切片机制比如一个文件夹下有5个小文件,切片时会切5个片,而不是一个片案例分析 2.FileInputFormat切片大小的参数配置源码中计算切片大小的 ...
MapReduce-CombineTextInputFormat 切片机制
MapReduce 框架默认的 TextInputFormat 切片机制是对任务按文件规划切片,如果有大量小文件,就会产生大量的 MapTask,处理小文件效率非常低. CombineTextInpu ...
【大数据】MapTask并行度和切片机制
一. MapTask并行度决定机制 maptask的并行度决定map阶段的任务处理并发度,进而影响到整个job的处理速度那么,mapTask并行实例是否越多越好呢?其并行度又是如何决定呢? 1.1 ...
MapReduce中作业调度机制
MapReduce中作业调度机制主要有3种: 1.先入先出FIFO Hadoop 中默认的调度器,它先按照作业的优先级高低,再按照到达时间的先后选择被执行的作业. 2.公平调度器(相当于时间 ...
王家林的“云计算分布式大数据Hadoop实战高手之路---从零开始”的第十一讲Hadoop图文训练课程：MapReduce的原理机制和流程图剖析
这一讲我们主要剖析MapReduce的原理机制和流程. “云计算分布式大数据Hadoop实战高手之路”之完整发布目录云计算分布式大数据实战技术Hadoop交流群:312494188,每天都会在群中发 ...
经典MapReduce作业和Yarn上MapReduce作业运行机制
一.经典MapReduce的作业运行机制如下图是经典MapReduce作业的工作原理: 1.1 经典MapReduce作业的实体经典MapReduce作业运行过程包含的实体: 客户端,提交MapR ...
MapReduce 切片机制源码分析
总体来说大概有以下2个大的步骤 1.连接集群(yarnrunner或者是localjobrunner) 2.submitter.submitJobInternal()在该方法中会创建提交路径,计算切片 ...
剖析MapReduce 作业运行机制
包含四个独立的实体: · Client Node 客户端:编写 MapReduce代码,配置作业,提交MapReduce作业. · JobTracker :初始化作业,分配作业,与 TaskTra ...
Hadoop(17)-MapReduce框架原理-MapReduce流程,Shuffle机制,Partition分区
MapReduce工作流程 1.准备待处理文件 2.job提交前生成一个处理规划 3.将切片信息job.split,配置信息job.xml和我们自己写的jar包交给yarn 4.yarn根据切片规划计 ...

随机推荐

数据文件实时同步(rsync + sersync2)
因近期项目需求,需要同步云端服务器的数据给**方做大数据分析. 思路: 起初只要数据同步,准备开放数据采集接口.但实时性较差,会有延迟. 故而寻觅各种解决方案,最终确定使用 rsync 进行文件同步, ...
djangorestframework+vue-cli+axios，为axios添加token作为headers踩坑记
情况是这样的,项目用的restful规范,后端用的django+djangorestframework,前端用的vue-cli框架+webpack,前端与后端交互用的axios,然后再用户登录之后,a ...
ORACLE 查询某表中的某个字段的类型，是否为空，是否有默认值等
最近写的功能中有这样一个小功能,根据数据库查询此库中是否有某表,如果有,查询某表下面的某个字段的详细信息其中一种是... select ATC.OWNER, atC.TABLE_NAME, ATC. ...
js坚持不懈之13：JavaScript查找HTML元素的方法
1. 通过 id 查找 HTML 元素 <!DOCTYPE html> <html> <body> <p id = "intro"> ...
UOJ 275. 【清华集训2016】组合数问题
UOJ 275. [清华集训2016]组合数问题组合数 $C_n^m $表示的是从 $n$ 个物品中选出 $m$ 个物品的方案数.举个例子,从$ (1,2,3)(1,2,3)$ 三个物品中选 ...
Codeforces Round #539 (Div. 2) - C. Sasha and a Bit of Relax（思维题）
Problem Codeforces Round #539 (Div. 2) - C. Sasha and a Bit of Relax Time Limit: 2000 mSec Problem ...
ASP.NET Core 使用 Google 验证码（Google reCAPTCHA）
关心最多的问题,不FQ能不能用,答案是能.Google官方提供额外的域名来提供服务,国内可以正常使用. 一. 前言验证码在我们实际的生活场景中非常常见,可以防止恶意破解密码.刷票.论坛灌水.刷注册等 ...
C# .NET 0配置使用Wcf(半成品)
设计原则:万物皆对象背景:微软提供了一套强大的通信框架Wcf,了解请看百度百科:ttps://baike.baidu.com/item/Wcf/7374854?fr=aladdin 虽然这套通信框架 ...
opendir函数和readdir函数内涵及用法
工作中遇到奇怪的事,加载增量的时候加载不上.于是开始分析原因,log里边没有任何错误信息,只有加载完成的标志.增量的数据在目录里边是存在的,但是显示的目录大小却不是4096,而是17,不知道为什么.后 ...
PHP为前端CSS和JS增加时间戳版本号
一.PHP代码如下: function addVersion($url){ $version = date("Y-m-d H:i:s",filemtime($_SERVER['DO ...

MapReduce-TextInputFormat 切片机制

MapReduce-TextInputFormat 切片机制的更多相关文章

随机推荐

热门专题