MapReduce编程模型之案例

wordcount

  • 输入数据

    atguigu atguigu
    ss ss
    cls cls
    jiao
    banzhang
    xue
    hadoop
  • 输出数据

    atguigu 2
    banzhang 1
    cls 2
    hadoop 1
    jiao 1
    ss 2
    xue 1
  • Mapper

    • 将MapTask传给我们的文本内容先转换成String

      atguigu atguigu

    • 根据空格将这一行切分成单词

      atguigu

      atguigu

    • 将单词输出为<单词,1>

      atguigu,1

      atguigu,1

  • Reduce

    • 汇总各个key的个数

      atguigu,1

      atguigu,1

    • 输出该key的总次数

      atguigu,2

  • Driver

    • 获取配置信息,获取job对象实例

    • 指定本程序的jar包所在的本地路径

    • 关联Mapper/Reduce业务类

    • 指定Mapper输出数据的kv类型

    • 指定最终输出的数据的kv类型

    • 指定job的输入原始文件所在目录

    • 指定job的输出结果所在目录

    • 提交作业

MapReduce编程模型之Map和Reduce

  • 将作业拆分成Map阶段和Reduce

  • Map阶段:Map Tasks

  • Reduce阶段:Reduce Tasks

MapReduce编程模型之Map和Reduce

  • 准备map处理的输入数据

  • Mapper处理

  • Shuffle

  • Reduce处理

  • 结果输出

核心概念

  • Split:交由MapReduce作业来处理的数据块,是MapReduce中最小的计算单元

    • HDFS:blocksize是HDFS中最小的存储单元 128M

    • 默认情况下:他们两是一一对应的,当然我们也可以手工设置他们之间的关系

  • InputFormat

  • OutputFormat

  • Combiner

  • Partitioner

MapReduce框架原理

InputFormat数据输入

切片与MapTask并行度决定机制
  • MapTask的并行度决定Map阶段的任务处理并发度,进而影响到整个job的处理速度。

  • MapTask并行度决定机制

    • 数据块:Block是HDFS物理上把数据分成一块一块

    • 数据切片:数据切片只是在逻辑上对输入进行切片,并不会在磁盘上将其切分成片进行存储

job提交流程源码解析

FileInputFormat切片源码解析(input.getSplits(job))
  • 程序先找到你的数据存储的目录

  • 开始遍历处理(规划切片)目录下的每一个文件

  • 遍历第一个文件ss.txt(300M)

    • 获取文件大小fs.sizeOf(ss.txt)

    • 计算切片大小

      computeSliteSize(Math.max(minSize,Math.min(maxSize,blocksize)))=blocksize=128M

    • 默认情况下,切片大小=blocksize

    • 开始切,形成第一个切片:ss.txt---0:128M 第二个切片ss.txt---128:256M 第三切片ss.txt---256M:300M(每次切片时,都要判断切完剩下的部分是否大于块的1.1倍,不大于1.1倍就切分一块切片)

    • 将切片信息写到一个切片规划文件中,

    • 整个切片的核心过程在getSplit()方法中完成

    • InputSplit只记录了切片的元数据信息,比如起始位置、长度以及所在的节点列表等。

  • 提交切片规划文件到YARN上,YARN上的MrAppMaster就可以根据切片规划文件计算开启MapTask个数

FileInputFormat切片机制
  • 切片机制

    • 简单地按照文件的内容长度进行切片

    • 切片大小,默认等于Block大小

    • 切片时不考虑数据集整体,而是逐个针对每个文件单独切片

  • 案例分析

    • 输入两个文件:file1.text 320M ,file2.txt 10M

    • 经过FileInputFormat的切片机制运算后,形成的切片信息如下:

      file1.text.split1-- 0~128

      file1.text.split2-- 128~256

      file1.text.split3-- 256~320

      file2.text.split1-- 0~10

  • 源码中计算切片大小的公式

    Math.max(minSize,Math.min(maxSize,blocksize));

    mapreduce.input.fileinputformat.split.minsize=1 默认值为1

    mapreduce.input.fileinputformat.split.maxsize=Long.MAXValue 默认值Long.MAXValue

    因此,默认情况下,切片大小=blocksize。

  • 切片大小设置

    maxsize(切片最大值):参数如果调得比blockSize小,则会让切片变小,而且就等于配置的这个参数

    minsize(切片最小值):参数调的比blockSize大,则可以让切片变得比blockSize还大

  • 获取切片信息API

    //获取切片的文件名称

    String name = inputSplit.getPath().getName();

    //根据文件类型获取切片信息

    FileSplit inputSplit = (FileSplit)context.getInputSplit();

CombineTextInputFormat切片机制
  • 框架默认的TextInputFormat切片机制时对任务按文件规划切片,不管文件多小,都会是一个单独的切片,都会交给一个MapTask,这样如果有大量小文件,就会产生大量的MapTask,处理效率极其低下。

  • 应用场景:

    CombineTextInputFormat用于小分件过多的场景,它可以将多个小文件从逻辑上规划到一个切片中,这样,多个小文件就可以交给一个MapTask处理。

MapReduce编程解析的更多相关文章

  1. Hadoop MapReduce编程 API入门系列之压缩和计数器(三十)

    不多说,直接上代码. Hadoop MapReduce编程 API入门系列之小文件合并(二十九) 生成的结果,作为输入源. 代码 package zhouls.bigdata.myMapReduce. ...

  2. hadoop2.2编程:使用MapReduce编程实例(转)

    原文链接:http://www.cnblogs.com/xia520pi/archive/2012/06/04/2534533.html 从网上搜到的一篇hadoop的编程实例,对于初学者真是帮助太大 ...

  3. MapReduce 编程模型

    一.简单介绍 1.MapReduce 应用广泛的原因之中的一个在于它的易用性.它提供了一个因高度抽象化而变得异常简单的编程模型. 2.从MapReduce 自身的命名特点能够看出,MapReduce ...

  4. 暴力破解MD5的实现(MapReduce编程)

    本文主要介绍MapReduce编程模型的原理和基于Hadoop的MD5暴力破解思路. 一.MapReduce的基本原理 Hadoop作为一个分布式架构的实现方案,它的核心思想包括以下几个方面:HDFS ...

  5. MapReduce编程模型简介和总结

    MapReduce应用广泛的原因之一就是其易用性,提供了一个高度抽象化而变得非常简单的编程模型,它是在总结大量应用的共同特点的基础上抽象出来的分布式计算框架,在其编程模型中,任务可以被分解成相互独立的 ...

  6. 指导手册05:MapReduce编程入门

    指导手册05:MapReduce编程入门   Part 1:使用Eclipse创建MapReduce工程 操作系统: Centos 6.8, hadoop 2.6.4 情景描述: 因为Hadoop本身 ...

  7. MapReduce 编程模型概述

    MapReduce 编程模型给出了其分布式编程方法,共分 5 个步骤:1) 迭代(iteration).遍历输入数据, 并将之解析成 key/value 对.2) 将输入 key/value 对映射( ...

  8. MapReduce编程实例5

    前提准备: 1.hadoop安装运行正常.Hadoop安装配置请参考:Ubuntu下 Hadoop 1.2.1 配置安装 2.集成开发环境正常.集成开发环境配置请参考 :Ubuntu 搭建Hadoop ...

  9. mapreduce编程--(准备篇)

    mapreduce编程准备 学习mapreduce编程之前需要做一些概念性的了解,这是做的一些课程学习笔记,以便以后时不时的翻出来学习下,之前看过一篇文章大神们都是时不时的翻出基础知识复习下,我也做点 ...

随机推荐

  1. dpdk优化相关 转

    注:本文是参照了一些其他文章,原文地址点击这里. 首先根据这篇文章进行了性能瓶颈的分析 策略与方法 首先根据木桶原理,首先要找到最弱的地方,怎么找往上看↑. 想能优化需要考虑如下: 优化BIOS设置 ...

  2. POJ3694 Network - Tarjan + 并查集

    Description 给定$N$个点和 $M$条边的无向联通图, 有$Q$ 次操作, 连接两个点的边, 问每次操作后的图中有几个桥 Solution 首先Tarjan找出边双联通分量, 每个双联通分 ...

  3. python入门科普IDE工具和编译环境

            应友人之邀,今天来讲述python的一些入门内容.本次讲解的并不是语法或者某个模块.                  python下载安装 大多数 Linux 发行版在默认安装的情况 ...

  4. android c 读写文件

    1.包含头文件 #include<unistd.h>#include<sys/types.h>#include<sys/stat.h>#include<fcn ...

  5. 【轻松前端之旅】元素,标记,属性,<html>标签

    HTML文档是由HTML元素定义的. HTML元素(element)指的是从开始标签(start tag)到结束标签(end tag)的所有代码. 有些元素会使用简写记法,如<img src=' ...

  6. navigator - 定时器 - event

    1. navigator userAgent: 包含浏览器名称,内核,版本号的字符串 鄙视: 如何判断浏览器名称和版本号 2. 定时器: 2种: 1. 周期性定时器: 什么是: 让程序每隔一段时间间隔 ...

  7. hibernate 的evict 和clear

    摘自百度知道:http://zhidao.baidu.com/question/63663640.html 问: 先创建一个Student,然后调用session.save方法,然后再调用evict方 ...

  8. 使用delphi 10.2 开发linux 上的Daemon

    delphi 10.2 支持linux, 而且官方只是支持命令行编程,目地就是做linux 服务器端的开发. 既然是做linux服务器端的开发,那么普通的命令行运行程序,然后等待开一个黑窗口的方式就 ...

  9. How to turn on syntax highlighting in osx

    put follow code in ~/.vimrc set ai " auto indenting set history=100 " keep 100 lines of hi ...

  10. vue-cli引入jquery方法

    方法一: 一,在package.json里加入, dependencies:{ ”jquery“:”^2.3.4“ } 二,在webpack.base.conf.js里加入 const webpack ...