Hadoop化繁为简(三)—探索Mapreduce简要原理与实践
目录-探索mapreduce
1、Mapreduce的模型简介与特性?Yarn的作用?
2、mapreduce的工作原理是怎样的?
3、配置Yarn与Mapreduce、演示Mapreduce例子程序
4、javaApi开发Mapreduce程序
发散思考-入门mapreduce
思考题:假设有一个长度为1000万的int数组,求数组数据长度。
答:如果是应试考试,你说觉得太简单了吧,一个for循环就搞定。可是,它是一个面试,你如何通过解决这一个问题就脱颖而出呢?凡是,大数据量计算一定要向多线程方向去靠。
思考题:设计一个解决方案,把分布在四台机器上的数据报表统计出来。
数据向计算靠近:把数据网络传输全部汇总在一起,然后用应用程序计算。
计算向数据靠近:把应用程序放在存储数据的机器节点上,然后把用网络传输计算结果汇总。
mapreduce简介
mapreduce就是将存储在分布式文件系统hdfs的一个大规模数据集,会被切分许多个独立的小数据块,这些小数据块可以被多个Map任务并行处理。
mapreduce特性:分布式存储、工作调度、负载均衡、容错处理、网络通信。
mapreduce设计理念:计算向数据靠拢、“分而治之”。
Yarn被称为调度引擎,那怎么个调度法?
答:假设你已经了解Hdfs文件系统,当客户端提交一个计算任务给hadoop集群,Master(NameNode)会先拆分计算任务,那么怎么把任务分配给空闲机器呢?那怎么识别空闲机器呢?这些任务就交给Yarn这个调度引擎处理。
如果你对Hadoop的环境部署、分布式文件系统还为入门,可参照下述文章:
Hadoop化繁为简(一)-从安装Linux到搭建集群环境
Hadoop化繁为简(二)—层层递进轻松入门hdfs
mapreduce工作流程
举例:计算文件中单词出现的次数,我们可以用抽象的思维假设它是一个超级超级大的文件。
注:我的机器的物理架构是一个Master、三个Slave,如上图所示。此处暂且不讨论Block与InputSplit的关系。
- Master负责协调调度作业,Slave负责执行Map、Reduce任务。
- 在分布式文件系统下存在/input/words.txt大文件,Master将大文件按行分成5个分片,并且把任务分配给Slave分配给空闲机器。把任务分配给靠近数据节点(在文件系统中,文件可能只在Slave1、Slave2这两台机器上,所以把拆分任务尽量分配给存储文件的机器上)。
- 执行Map任务:把每个分片上的任务,按行拆分单词,并且把单词作为key、出现次数作为value。并且把中件结果,也就是shuffle的<k,v>结果存储在本地缓冲区中,当缓存满了,清空缓存,把缓存数据写入到本地文件系统中,被称为“溢写”。当一个Map任务完成以后,它会马上通知Master机器,需要Master安排机器来领取数据执行Reduce任务。
- 在shuffle过程中,可能有一个疑问,是怎样把相同key值的value放在一块去的呢?在数据结构中,有一个hash查找的概念,在这里就是采用hashMap函数。
- 执行Reduce任务:在执行Reduce任务之前,会把分布在不同机器上的同一个结果集通过shuffle过程归并在一起。例如,假设上面的input是一个超级大的文件,每一行被分布在不同机器上,那么java这个key值可能在Slave1、Slave2当中都有,那么就需要先把Slave1、Slave2的java派发在同一台机器上执行Reduce任务。最后,Reduce任务就是把List<K,V>遍历,按照key把value相加。
建议:理论先知道轮廓,马上进行实践,最少总结再研究细节。
配置yarn与执行mapreduce
注:假设已经参考上述文章,配置好hadoop环境、hdfs。
1、配置计算引擎mapreduce和调度引擎yarn。
2、Master(nameNode)的mapred-site.xml
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
3、Master(namenode)和Slave(datanode)的yarn-site.xml
<property>
<name>yarn.resourcemanager.hostname</name>
<value>master</value>
</property> <property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property> <property>
<name>yarn.nodemanager.auxservices.mapreduce.shuffle.class</name>
<value>org.apache.hadoop.mapred.ShuffleHandler</value>
</property>
4、start-yarn.sh启动集群,如果没有配置环境变量,需要在/hadoop/sbin/目录下执行。
5、利用jps查看集群启动情况或者利用网页http://master:8088/观察。
6、查找mapreduce示例程序:/find /usr/local/hadoop -name *example*.jar 查找示例文件
7、执行 hadoop jar **.jar wordcount /input /output2
8、可利用网页(http://master:8088/cluster)查看job执行情况
利用JavaAPI执行mapreduce程序
1、添加jar-pom.xml包
<?xml version="1.0" encoding="UTF-8"?>
<project xmlns="http://maven.apache.org/POM/4.0.0"
xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">
<modelVersion>4.0.0</modelVersion>
<artifactId>aaorn-mapreduce</artifactId>
<packaging>jar</packaging>
<!--hadoop公共部分 Begin-->
<dependency>
<groupId>org.apache.hadoop</groupId>
<artifactId>hadoop-common</artifactId>
<version>${hadoop.version}</version>
</dependency>
<!--hadoop公共部分 End--><span style="color: #008000;"><!--</span><span style="color: #008000;">hadoop分布式文件系统 Begin</span><span style="color: #008000;">--></span>
<span style="color: #0000ff;"><</span><span style="color: #800000;">dependency</span><span style="color: #0000ff;">></span>
<span style="color: #0000ff;"><</span><span style="color: #800000;">groupId</span><span style="color: #0000ff;">></span>org.apache.hadoop<span style="color: #0000ff;"></</span><span style="color: #800000;">groupId</span><span style="color: #0000ff;">></span>
<span style="color: #0000ff;"><</span><span style="color: #800000;">artifactId</span><span style="color: #0000ff;">></span>hadoop-hdfs<span style="color: #0000ff;"></</span><span style="color: #800000;">artifactId</span><span style="color: #0000ff;">></span>
<span style="color: #0000ff;"><</span><span style="color: #800000;">version</span><span style="color: #0000ff;">></span>${hadoop.version}<span style="color: #0000ff;"></</span><span style="color: #800000;">version</span><span style="color: #0000ff;">></span>
<span style="color: #0000ff;"></</span><span style="color: #800000;">dependency</span><span style="color: #0000ff;">></span>
<span style="color: #008000;"><!--</span><span style="color: #008000;">hadoop分布式文件系统 End</span><span style="color: #008000;">--></span> <span style="color: #008000;"><!--</span><span style="color: #008000;">hadoop mapreduce Begin</span><span style="color: #008000;">--></span>
<span style="color: #0000ff;"><</span><span style="color: #800000;">dependency</span><span style="color: #0000ff;">></span>
<span style="color: #0000ff;"><</span><span style="color: #800000;">groupId</span><span style="color: #0000ff;">></span>org.apache.hadoop<span style="color: #0000ff;"></</span><span style="color: #800000;">groupId</span><span style="color: #0000ff;">></span>
<span style="color: #0000ff;"><</span><span style="color: #800000;">artifactId</span><span style="color: #0000ff;">></span>hadoop-client<span style="color: #0000ff;"></</span><span style="color: #800000;">artifactId</span><span style="color: #0000ff;">></span>
<span style="color: #0000ff;"><</span><span style="color: #800000;">version</span><span style="color: #0000ff;">></span>${hadoop.version}<span style="color: #0000ff;"></</span><span style="color: #800000;">version</span><span style="color: #0000ff;">></span>
<span style="color: #0000ff;"></</span><span style="color: #800000;">dependency</span><span style="color: #0000ff;">></span>
<span style="color: #008000;"><!--</span><span style="color: #008000;">hadoop mapreduce End</span><span style="color: #008000;">--></span>
<span style="color: #0000ff;"></</span><span style="color: #800000;">dependencies</span><span style="color: #0000ff;">></span>
</project>
2、配置log4j.properties,放到src/main/resources目录下
log4j.rootCategory=INFO, stdout
log4j.appender.stdout=org.apache.log4j.ConsoleAppender
log4j.appender.stdout.layout=org.apache.log4j.PatternLayout
log4j.appender.stdout.layout.ConversionPattern=[QC] %p [%t] %C.%M(%L) | %m%n
3、编Map程序
//Mapper的输入是key:行号(LongWritable) value:每一行的文本(Text)
//Mapper的输出是key:单词(Text) value:出现的次数(LongWritable)
public class WordCountMapper extends Mapper<LongWritable,Text,Text,LongWritable> {
@Override
protected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {
//单词按空格分割
String [] values=value.toString().split(" ");
final LongWritable MAP_VALUE=new LongWritable(1);
for(String s:values){
context.write(new Text(s),MAP_VALUE);
}
}
}
4、编写Reduce程序
//Reducer的输入是key:单词(Text) value:单词出现的次数集合(Iterable<LongWritable>)
//Reducer的输出是key:单词(Text) value:出现的总次数(LongWritable)
public class WordCountReducer extends Reducer<Text,LongWritable,Text,LongWritable>{
@Override
protected void reduce(Text key, Iterable<LongWritable> values, Context context) throws IOException, InterruptedException {
long count=0;
for(LongWritable value:values){
count+=value.get();
}
context.write(key,new LongWritable(count));
}
}
5、测试程序
public class Test {
public static void main(String [] args) throws Exception{
Configuration conf = new Configuration();
conf.set("fs.defaultFS", "hdfs://master:9000/");
//先写完程序再打jar包。
conf.set("mapreduce.job.jar", "D:/intelij-workspace/aaron-bigdata/aaorn-mapreduce/target/aaorn-mapreduce-1.0-SNAPSHOT.jar".trim());
conf.set("mapreduce.framework.name", "yarn");
conf.set("yarn.resourcemanager.hostname", "master");
conf.set("mapreduce.app-submission.cross-platform", "true");Job job </span>=<span style="color: #000000;"> Job.getInstance(conf);
job.setMapperClass(WordCountMapper.</span><span style="color: #0000ff;">class</span><span style="color: #000000;">);
job.setReducerClass(WordCountReducer.</span><span style="color: #0000ff;">class</span><span style="color: #000000;">);
job.setMapOutputKeyClass(Text.</span><span style="color: #0000ff;">class</span><span style="color: #000000;">);
job.setMapOutputValueClass(LongWritable.</span><span style="color: #0000ff;">class</span><span style="color: #000000;">);
job.setOutputKeyClass(Text.</span><span style="color: #0000ff;">class</span><span style="color: #000000;">);
job.setOutputValueClass(LongWritable.</span><span style="color: #0000ff;">class</span><span style="color: #000000;">); FileInputFormat.setInputPaths(job,</span>"hdfs://master:9000/input/"<span style="color: #000000;">);
FileOutputFormat.setOutputPath(job,</span><span style="color: #0000ff;">new</span> Path("hdfs://master:9000/output/"<span style="color: #000000;">)); job.waitForCompletion(</span><span style="color: #0000ff;">true</span><span style="color: #000000;">);
}
}
5、测试结果
6、可能出现的问题
(2)windows本地用户访问权限问题:配置执行时的虚拟机参数-DHADOOP_USER_NAME=root
(3)如果遇到其他问题,欢迎留言。如果哪里有写的不当或者不够完善的,欢迎提出建议,以便博主完善为网友提供更加优质的文章。
版权声明
作者:邱勇Aaron
出处:http://www.cnblogs.com/qiuyong/
您的支持是对博主深入思考总结的最大鼓励。
本文版权归作者所有,欢迎转载,但未经作者同意必须保留此段声明,且在文章页面明显位置给出原文连接,尊重作者的劳动成果。
Hadoop化繁为简(三)—探索Mapreduce简要原理与实践的更多相关文章
- 化繁为简(三)—探索Mapreduce简要原理与实践
目录-探索mapreduce 1.Mapreduce的模型简介与特性?Yarn的作用? 2.mapreduce的工作原理是怎样的? 3.配置Yarn与Mapreduce.演示Mapreduce例子程序 ...
- Mapreduce简要原理与实践
探索Mapreduce简要原理与实践 目录-探索mapreduce 1.Mapreduce的模型简介与特性?Yarn的作用? 2.mapreduce的工作原理是怎样的? 3.配置Yarn与Mapred ...
- Hadoop(三)HDFS读写原理与shell命令
一 HDFS概述 1.1 HDFS产生背景 随着数据量越来越大,在一个操作系统管辖的范围内存不下了,那么就分配到更多的操作系统管理的磁盘中,但是不方便管理和维护,迫切需要一种系统来管理多台机器上的文件 ...
- Hadoop 之 深入探索MapReduce
1.MapReduce基础概念 答:MapReduce作业时一种大规模数据的并行计算的便程模型.我们可以将HDFS中存储的海量数据,通过MapReduce作业进行计算,得到目标数据. 2.MapRed ...
- Hadoop MapReduce工作原理
在学习Hadoop,慢慢的从使用到原理,逐层的深入吧 第一部分:MapReduce工作原理 MapReduce 角色 •Client :作业提交发起者. •JobTracker: 初始化作业,分配 ...
- 【转载】Hadoop mapreduce 实现原理
1. 如何用通俗的方法解释MapReduce MapReduce是Google开源的三大技术之一,是对海量数据进行“分而治之”计算框架.为了简单的理解并讲述给客户理解.我们举下面的例子来说明. 首先 ...
- Hadoop面试题总结(三)——MapReduce
1.谈谈Hadoop序列化和反序列化及自定义bean对象实现序列化? 1)序列化和反序列化 (1)序列化就是把内存中的对象,转换成字节序列(或其他数据传输协议)以便于存储(持久化)和网络传输. (2) ...
- 王家林的“云计算分布式大数据Hadoop实战高手之路---从零开始”的第十一讲Hadoop图文训练课程:MapReduce的原理机制和流程图剖析
这一讲我们主要剖析MapReduce的原理机制和流程. “云计算分布式大数据Hadoop实战高手之路”之完整发布目录 云计算分布式大数据实战技术Hadoop交流群:312494188,每天都会在群中发 ...
- Hadoop学习---Hadoop的MapReduce的原理
MapReduce的原理 MapReduce的原理 NameNode:存放文件的元数据信息 DataNode:存放文件的具体内容 ResourceManager:资源管理,管理内存.CPU等 Node ...
随机推荐
- uboot 传递的参数 mtdparts
启动uboot后,在重新烧写程序之前,查看传递给内核的参数时(命令为: printenv),看到如下内容: bootargs=console=ttyS0,115200 mtdparts=spi0.0: ...
- c++ 简单静态链表
所有结点(结构体变量)都是在程序中定义的,不是临时开辟的,也不能用完后释放,这种链表称为静态链表.对各结点既可以通过上一个结点的next指针去访问,也可以直接通过结构体变量名s1, s2, s3去访问 ...
- git命令行提交并且同步到远程代码库
远程代码库以github为例 1.打开 git bash 2.进入项目目录 cd /e/myGitProjects/test 3.提交到本地git仓库 git add -Agit commit -m ...
- SQL Server 触发器demo
GO /****** Object: Trigger [dbo].[tri_device] Script Date: 2018/6/11 10:56:08 ******/ SET ANSI_NUL ...
- codeforce 139E
成段更新+离散化才能过,数据好强.. 单点更新挂在了test27,下次做到成段更新再来做! /* 期望=存活概率*点权值/100 ans=sum(期望) 离散化树木权值,数轴统计累加可能倒下的树木概率 ...
- pytest十六:allure2 生成 html 报告
allure 是一个 report 框架,支持 java 的 Junit/testng 等框架,当然也可以支持 python 的 pytest 框架,也可以集成到 Jenkins 上展示高大上的报告界 ...
- python 全栈开发,Day43(引子,协程介绍,Greenlet模块,Gevent模块,Gevent之同步与异步)
昨日内容回顾 I/O模型,面试会问到I/O操作,不占用CPU.它内部有一个专门的处理I/O模块.print和写log 属于I/O操作,它不占用CPU 线程GIL保证一个进程中的多个线程在同一时刻只有一 ...
- Mysql在master上查看有哪些slave
mysql> select * from information_schema.processlist as p where p.command = 'Binlog Dump'; 或 mysql ...
- Java httpClient 发送http请求
RestTemplate ObjectMapper将string反序列化为WeatherResponse类 RestTemplate通过spring配置注入
- phpstrom破解
lisence输入 2018/04/09 更新 license server:http://im.js.cn:8888 http://idea.iteblog.com/key.php 2018/0 ...