探索Mapreduce简要原理与实践

目录-探索mapreduce

　　1、Mapreduce的模型简介与特性？Yarn的作用？

　　2、mapreduce的工作原理是怎样的？

　　3、配置Yarn与Mapreduce、演示Mapreduce例子程序

　　4、javaApi开发Mapreduce程序

发散思考-入门mapreduce

　　思考题：假设有一个长度为1000万的int数组，求数组数据长度。

　　答：如果是应试考试，你说觉得太简单了吧，一个for循环就搞定。可是，它是一个面试，你如何通过解决这一个问题就脱颖而出呢？凡是，大数据量计算一定要向多线程方向去靠。

　　思考题：设计一个解决方案，把分布在四台机器上的数据报表统计出来。

　　数据向计算靠近：把数据网络传输全部汇总在一起，然后用应用程序计算。

　　计算向数据靠近：把应用程序放在存储数据的机器节点上，然后把用网络传输计算结果汇总。

mapreduce简介　

　　mapreduce就是将存储在分布式文件系统hdfs的一个大规模数据集，会被切分许多个独立的小数据块，这些小数据块可以被多个Map任务并行处理。

　　mapreduce特性：分布式存储、工作调度、负载均衡、容错处理、网络通信。

　　mapreduce设计理念：计算向数据靠拢、“分而治之”。

　　Yarn被称为调度引擎，那怎么个调度法？

　　答：假设你已经了解Hdfs文件系统，当客户端提交一个计算任务给hadoop集群，Master(NameNode)会先拆分计算任务，那么怎么把任务分配给空闲机器呢？那怎么识别空闲机器呢？这些任务就交给Yarn这个调度引擎处理。

　　如果你对Hadoop的环境部署、分布式文件系统还为入门，可参照下述文章：

　　Hadoop化繁为简（一）-从安装Linux到搭建集群环境
　　 Hadoop化繁为简（二）—层层递进轻松入门hdfs

mapreduce工作流程

　　举例：计算文件中单词出现的次数，我们可以用抽象的思维假设它是一个超级超级大的文件。

　　注：我的机器的物理架构是一个Master、三个Slave，如上图所示。此处暂且不讨论Block与InputSplit的关系。

Master负责协调调度作业，Slave负责执行Map、Reduce任务。
在分布式文件系统下存在/input/words.txt大文件，Master将大文件按行分成5个分片，并且把任务分配给Slave分配给空闲机器。把任务分配给靠近数据节点(在文件系统中，文件可能只在Slave1、Slave2这两台机器上，所以把拆分任务尽量分配给存储文件的机器上)。
执行Map任务：把每个分片上的任务，按行拆分单词，并且把单词作为key、出现次数作为value。并且把中件结果，也就是shuffle的<k,v>结果存储在本地缓冲区中，当缓存满了，清空缓存，把缓存数据写入到本地文件系统中，被称为“溢写”。当一个Map任务完成以后，它会马上通知Master机器，需要Master安排机器来领取数据执行Reduce任务。
在shuffle过程中，可能有一个疑问，是怎样把相同key值的value放在一块去的呢？在数据结构中，有一个hash查找的概念，在这里就是采用hashMap函数。
执行Reduce任务：在执行Reduce任务之前，会把分布在不同机器上的同一个结果集通过shuffle过程归并在一起。例如，假设上面的input是一个超级大的文件，每一行被分布在不同机器上，那么java这个key值可能在Slave1、Slave2当中都有，那么就需要先把Slave1、Slave2的java派发在同一台机器上执行Reduce任务。最后，Reduce任务就是把List<K,V>遍历，按照key把value相加。

　　建议：理论先知道轮廓，马上进行实践，最少总结再研究细节。

配置yarn与执行mapreduce　　

注：假设已经参考上述文章，配置好hadoop环境、hdfs。

1、配置计算引擎mapreduce和调度引擎yarn。

2、Master(nameNode)的mapred-site.xml

<property>

    <name>mapreduce.framework.name</name>

    <value>yarn</value>

</property>

3、Master(namenode)和Slave(datanode)的yarn-site.xml

<property>

    <name>yarn.resourcemanager.hostname</name>

    <value>master</value>

</property>

<property>

    <name>yarn.nodemanager.aux-services</name>

    <value>mapreduce_shuffle</value>

</property>  

<property>

    <name>yarn.nodemanager.auxservices.mapreduce.shuffle.class</name>

    <value>org.apache.hadoop.mapred.ShuffleHandler</value>

</property>

4、start-yarn.sh启动集群，如果没有配置环境变量，需要在/hadoop/sbin/目录下执行。

5、利用jps查看集群启动情况或者利用网页http://master:8088/观察。

6、查找mapreduce示例程序：/find /usr/local/hadoop -name *example*.jar 查找示例文件

7、执行 hadoop jar **.jar wordcount /input /output2

8、可利用网页(http://master:8088/cluster)查看job执行情况

利用JavaAPI执行mapreduce程序

1、添加jar-pom.xml包

<?xml version="1.0" encoding="UTF-8"?>

<project xmlns="http://maven.apache.org/POM/4.0.0"

         xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"

         xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">

    <modelVersion>4.0.0</modelVersion>

    <artifactId>aaorn-mapreduce</artifactId>

    <packaging>jar</packaging>

　　　　 <!--hadoop公共部分 Begin-->

        <dependency>

            <groupId>org.apache.hadoop</groupId>

            <artifactId>hadoop-common</artifactId>

            <version>${hadoop.version}</version>

        </dependency>

        <!--hadoop公共部分 End-->

        <!--hadoop分布式文件系统 Begin-->

        <dependency>

            <groupId>org.apache.hadoop</groupId>

            <artifactId>hadoop-hdfs</artifactId>

            <version>${hadoop.version}</version>

        </dependency>

        <!--hadoop分布式文件系统 End-->

        <!--hadoop mapreduce Begin-->

        <dependency>

            <groupId>org.apache.hadoop</groupId>

            <artifactId>hadoop-client</artifactId>

            <version>${hadoop.version}</version>

        </dependency>

        <!--hadoop mapreduce End-->

    </dependencies>

</project>

2、配置log4j.properties，放到src/main/resources目录下

log4j.rootCategory=INFO, stdout

log4j.appender.stdout=org.apache.log4j.ConsoleAppender

log4j.appender.stdout.layout=org.apache.log4j.PatternLayout

log4j.appender.stdout.layout.ConversionPattern=[QC] %p [%t] %C.%M(%L) | %m%n

3、编Map程序

//Mapper的输入是key：行号（LongWritable） value：每一行的文本（Text）

//Mapper的输出是key：单词（Text） value：出现的次数(LongWritable)

public class WordCountMapper extends Mapper<LongWritable,Text,Text,LongWritable> {

    @Override

    protected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {

        //单词按空格分割

        String [] values=value.toString().split(" ");

        final LongWritable MAP_VALUE=new LongWritable(1);

        for(String s:values){

            context.write(new Text(s),MAP_VALUE);

        }

    }

}

4、编写Reduce程序

//Reducer的输入是key：单词（Text） value：单词出现的次数集合（Iterable<LongWritable>）

//Reducer的输出是key：单词（Text） value：出现的总次数(LongWritable)

public class WordCountReducer extends Reducer<Text,LongWritable,Text,LongWritable>{

    @Override

    protected void reduce(Text key, Iterable<LongWritable> values, Context context) throws IOException, InterruptedException {

        long count=0;

        for(LongWritable value:values){

            count+=value.get();

        }

        context.write(key,new LongWritable(count));

    }

}

5、测试程序

public class Test {

    public static void main(String [] args) throws Exception{

        Configuration conf = new Configuration();

        conf.set("fs.defaultFS", "hdfs://master:9000/");

        //先写完程序再打jar包。

        conf.set("mapreduce.job.jar", "D:/intelij-workspace/aaron-bigdata/aaorn-mapreduce/target/aaorn-mapreduce-1.0-SNAPSHOT.jar".trim());

        conf.set("mapreduce.framework.name", "yarn");

        conf.set("yarn.resourcemanager.hostname", "master");

        conf.set("mapreduce.app-submission.cross-platform", "true");

        Job job = Job.getInstance(conf);

        job.setMapperClass(WordCountMapper.class);

        job.setReducerClass(WordCountReducer.class);

        job.setMapOutputKeyClass(Text.class);

        job.setMapOutputValueClass(LongWritable.class);

        job.setOutputKeyClass(Text.class);

        job.setOutputValueClass(LongWritable.class);

        FileInputFormat.setInputPaths(job,"hdfs://master:9000/input/");

        FileOutputFormat.setOutputPath(job,new Path("hdfs://master:9000/output/"));

        job.waitForCompletion(true);

    }

}

5、测试结果

6、可能出现的问题

（1）namenode处于安全模式：http://www.cnblogs.com/qiuyong/p/6944375.html

（2）windows本地用户访问权限问题：配置执行时的虚拟机参数-DHADOOP_USER_NAME=root

（3）如果遇到其他问题，欢迎留言。如果哪里有写的不当或者不够完善的，欢迎提出建议，以便博主完善为网友提供更加优质的文章。

版权声明

　　作者：xiaoyongAaron（邱勇）

　　出处：http://www.cnblogs.com/qiuyong/

Mapreduce简要原理与实践的更多相关文章

化繁为简(三)—探索Mapreduce简要原理与实践
目录-探索mapreduce 1.Mapreduce的模型简介与特性?Yarn的作用? 2.mapreduce的工作原理是怎样的? 3.配置Yarn与Mapreduce.演示Mapreduce例子程序 ...
Hadoop化繁为简(三)—探索Mapreduce简要原理与实践
目录-探索mapreduce 1.Mapreduce的模型简介与特性?Yarn的作用? 2.mapreduce的工作原理是怎样的? 3.配置Yarn与Mapreduce.演示Mapreduce例子程序 ...
《从Paxos到Zookeeper：分布式一致性原理与实践》【PDF】下载
内容简介 Paxos到Zookeeper分布式一致性原理与实践从分布式一致性的理论出发,向读者简要介绍几种典型的分布式一致性协议,以及解决分布式一致性问题的思路,其中重点讲解了Paxos和ZAB协议. ...
2018-2019-2 网络对抗技术 20165308 Exp3 免杀原理与实践
2018-2019-2 网络对抗技术 20165308 Exp3 免杀原理与实践实践内容(3.5分) 1.1 正确使用msf编码器(0.5分),msfvenom生成如jar之类的其他文件(0.5分) ...
【原创 Hadoop&Spark 动手实践 3】Hadoop2.7.3 MapReduce理论与动手实践
开始聊MapReduce,MapReduce是Hadoop的计算框架,我学Hadoop是从Hive开始入手,再到hdfs,当我学习hdfs时候,就感觉到hdfs和mapreduce关系的紧密.这个可能 ...
20155302《网络对抗》Exp3 免杀原理与实践
20155302<网络对抗>Exp3 免杀原理与实践实验要求 1.正确使用msf编码器,msfvenom生成如jar之类的其他文件,veil-evasion,自己利用shellcode编 ...
Spark 以及 spark streaming 核心原理及实践
收录待用,修改转载已取得腾讯云授权作者 | 蒋专蒋专,现CDG事业群社交与效果广告部微信广告中心业务逻辑组员工,负责广告系统后台开发,2012年上海同济大学软件学院本科毕业,曾在百度凤巢工作三年, ...
2017-2018-2 《网络对抗技术》 20155322 Exp3 免杀原理与实践
#2017-2018-2 <网络对抗技术> 20155322 Exp3 免杀原理与实践 [-= 博客目录 =-] 1-实践目标 1.1-实践介绍 1.2-实践内容 1.3-实践要求 2-实 ...
2017-2018-2 《网络对抗技术》 20155322 第五周 Exp2 后门原理与实践
#2017-2018-2 <网络对抗技术> 20155322 第五周 Exp2 后门原理与实践 [博客目录] 1-实践目标 1.1-实践介绍 1.2-实践内容 1.3-实践要求 2-实践过 ...

随机推荐

oracle 12.1.0.2中对象锁对系统的较大影响
环境:oracle 12.1.0.2 rac ,4节点一.概述通常来说,如果是oltp应用,那么部署在rac上,是不错的注意. 但实现情况中,往往是混合类型,既有OLTP也有OLAP. 如果没有 ...
谈谈toLocaleString()
如何理解toLocaleString()? toLocaleString()就是把数组转换为本地字符串.首先调用每个数组元素的toLocaleString()方法,然后使用地区特定的分隔符把生成的字符 ...
Scala语法（二）
(1)类,对象 //定义类(属性.方法),实例化对象 class counter{ *//主构造器 class counter(name:String,mode:Int){ ... } 实例化:val ...
hive 从Excel中导入数据
拿到Excel表后将数据保留,其他的乱七八糟都删掉,然后另存为txt格式的文本,用nodepad++将文本转换为UTF-8编码,此处命名为cityprovince.txt 将cityprovince. ...
模块导入应用settings的字符串
看django源码,感觉他的settings好高大上然后自己试试以上是文件目录 email.py中代码 class Email: def send(self): print('发送email') M ...
SIMD数据并行（一）——向量体系结构
在计算机体系中,数据并行有两种实现路径:MIMD(Multiple Instruction Multiple Data,多指令流多数据流)和SIMD(Single Instruction Multip ...
python2中将Unicode编码的中文和str相互转换
在python2x版本中关于中文汉字转换 1.中文------字符串格式 >>> s = '汉字' >>> type(s) <type 'str'> ...
20145202 2016-2017-2 《Java程序设计》第一周学习总结
20145202 2016-2017-2 <Java程序设计>第一周学习总结教材学习内容总结 java是SUN公司推出的面相网络的编程语言. 特点:完全面向对象,与平台无关,跨平台性(例 ...
torndb在python3中运用
#连接数据库:db = torndb.Connect() #查询一条的数据get() #查询多行的数据query() #创建数据表,数据库execute() #插入一条数据:sql = "i ...
nexys4-DDR开发板温度传感器ADT7420U
1. 用这个板子做个什么功能来学习?板子上有个温度传感器,看下官方是否有例程,板子售价1780元,相当的贵,下面是I2C接口, 看下芯片的引脚图 2. 资料下载地址,得注册账号 https://ref ...

Mapreduce简要原理与实践

探索Mapreduce简要原理与实践

目录-探索mapreduce

发散思考-入门mapreduce

mapreduce简介

mapreduce工作流程

配置yarn与执行mapreduce

利用JavaAPI执行mapreduce程序

版权声明

Mapreduce简要原理与实践的更多相关文章

随机推荐

热门专题

mapreduce简介　

配置yarn与执行mapreduce