大数据学习（二）-------- MapReduce

前提已经安装好hadoop的hdfs集群，可以查看

https://www.cnblogs.com/tree1123/p/10683570.html

Mapreduce是hadoop的运算框架，可以对hdfs中的数据分开进行计算，先执行很多maptask，在执行reducetask，这个过程中任务的执行需要一个任务调度的平台，就是yarn。

一、安装YARN集群

yarn集群中有两个角色：

主节点：Resource Manager 1台

从节点：Node Manager N台

Resource Manager一般安装在一台专门的机器上

Node Manager应该与HDFS中的data node重叠在一起

修改配置文件：yarn-site.xml

<property>

<name>yarn.resourcemanager.hostname</name>

<value>主机名</value>

</property>

<property>

<name>yarn.nodemanager.aux-services</name>

<value>mapreduce_shuffle</value>

</property>

<property>

<name>yarn.nodemanager.resource.memory-mb</name>

<value>2048</value>

</property>

<property>

<name>yarn.nodemanager.resource.cpu-vcores</name>

<value>2</value>

</property>

然后scp到所有机器，修改主节点hadoop的slaves文件，列入要启动nodemanager的机器，配好免密

然后，就可以用脚本启动yarn集群：

sbin/start-yarn.sh

停止：

sbin/stop-yarn.sh

页面：http://主节点:8088 看看node manager节点是否识别

开发一个提交job到yarn的客户端类，mapreduce所有jar和自定义类，打成jar包上传到hadoop集群中的任意一台机器上，运行jar包中的（YARN客户端类

hadoop jar ......JobSubmitter

二、开发mapreduce程序

注意理解分而治之的思想，先进行map：映射，对应，个数不变。 reduce：化简，合并，将一系列数据，化简为一个值。

主要需要开发：

map阶段的进、出数据，

reduce阶段的进、出数据，

类型都应该是实现了HADOOP序列化框架的类型，如：

String对应Text

Integer对应IntWritable

Long对应LongWritable

例子wordcount代码：

WordcountMapper

public class WordcountMapper extends Mapper<LongWritable, Text, Text, IntWritable>{

	@Override

	protected void map(LongWritable key, Text value, Context context)

			throws IOException, InterruptedException {

		// 切单词

		String line = value.toString();

		String[] words = line.split(" ");

		for(String word:words){

			context.write(new Text(word), new IntWritable(1));

		}

	}

}

WordcountReducer

public class WordcountReducer extends Reducer<Text, IntWritable, Text, IntWritable>{

	@Override

	protected void reduce(Text key, Iterable<IntWritable> values,Context context) throws IOException, InterruptedException {

		int count = 0;

		Iterator<IntWritable> iterator = values.iterator();

		while(iterator.hasNext()){

			IntWritable value = iterator.next();

			count += value.get();

		}

		context.write(key, new IntWritable(count));

	}

}

public class JobSubmitter {

	public static void main(String[] args) throws Exception {

		// 在代码中设置JVM系统参数，用于给job对象来获取访问HDFS的用户身份

		System.setProperty("HADOOP_USER_NAME", "root");

		Configuration conf = new Configuration();

		// 1、设置job运行时要访问的默认文件系统

		conf.set("fs.defaultFS", "hdfs://hdp-01:9000");

		// 2、设置job提交到哪去运行

		conf.set("mapreduce.framework.name", "yarn");

		conf.set("yarn.resourcemanager.hostname", "hdp-01");

		// 3、如果要从windows系统上运行这个job提交客户端程序，则需要加这个跨平台提交的参数

		conf.set("mapreduce.app-submission.cross-platform","true");

		Job job = Job.getInstance(conf);

		// 1、封装参数：jar包所在的位置

		job.setJar("d:/wc.jar");

		//job.setJarByClass(JobSubmitter.class);

		// 2、封装参数： 本次job所要调用的Mapper实现类、Reducer实现类

		job.setMapperClass(WordcountMapper.class);

		job.setReducerClass(WordcountReducer.class);

		// 3、封装参数：本次job的Mapper实现类、Reducer实现类产生的结果数据的key、value类型

		job.setMapOutputKeyClass(Text.class);

		job.setMapOutputValueClass(IntWritable.class);

		job.setOutputKeyClass(Text.class);

		job.setOutputValueClass(IntWritable.class);

		Path output = new Path("/wordcount/output");

		FileSystem fs = FileSystem.get(new URI("hdfs://hdp-01:9000"),conf,"root");

		if(fs.exists(output)){

			fs.delete(output, true);

		}

		// 4、封装参数：本次job要处理的输入数据集所在路径、最终结果的输出路径

		FileInputFormat.setInputPaths(job, new Path("/wordcount/input"));

		FileOutputFormat.setOutputPath(job, output);  // 注意：输出路径必须不存在

		// 5、封装参数：想要启动的reduce task的数量

		job.setNumReduceTasks(2);

		// 6、提交job给yarn

		boolean res = job.waitForCompletion(true);

		System.exit(res?0:-1);

	}

}

MR还有一些高级的用法：自定义类型，自定义Partitioner，Combiner，排序，倒排索引，自定义GroupingComparator

三、mapreduce与yarn的核心机制

yarn是一个分布式程序的运行调度平台

yarn中有两大核心角色：

1、Resource Manager

接受用户提交的分布式计算程序，并为其划分资源

管理、监控各个Node Manager上的资源情况，以便于均衡负载

2、Node Manager

管理它所在机器的运算资源（cpu + 内存）

负责接受Resource Manager分配的任务，创建容器、回收资源

Mapreduce工作机制：

划分输入切片——》环形缓冲区 ——》分区排序 ——》Combiner 局部聚合——》shuffle ——》GroupingComparator——》输出

大数据学习（二）-------- MapReduce的更多相关文章

大数据学习系列之四 ----- Hadoop+Hive环境搭建图文详解(单机)
引言在大数据学习系列之一 ----- Hadoop环境搭建(单机) 成功的搭建了Hadoop的环境,在大数据学习系列之二 ----- HBase环境搭建(单机)成功搭建了HBase的环境以及相关使用 ...
大数据学习系列之五 ----- Hive整合HBase图文详解
引言在上一篇大数据学习系列之四 ----- Hadoop+Hive环境搭建图文详解(单机) 和之前的大数据学习系列之二 ----- HBase环境搭建(单机) 中成功搭建了Hive和HBase的环 ...
大数据学习系列之六 ----- Hadoop+Spark环境搭建
引言在上一篇中大数据学习系列之五 ----- Hive整合HBase图文详解 : http://www.panchengming.com/2017/12/18/pancm62/ 中使用Hive整合 ...
大数据学习系列之七 ----- Hadoop+Spark+Zookeeper+HBase+Hive集群搭建图文详解
引言在之前的大数据学习系列中,搭建了Hadoop+Spark+HBase+Hive 环境以及一些测试.其实要说的话,我开始学习大数据的时候,搭建的就是集群,并不是单机模式和伪分布式.至于为什么先写单 ...
大数据学习（一） | 初识 Hadoop
作者: seriouszyx 首发地址:https://seriouszyx.top/ 代码均可在 Github 上找到(求Star) 最近想要了解一些前沿技术,不能一门心思眼中只有 web,因为我目 ...
大数据学习笔记之Hadoop（一）：Hadoop入门
文章目录大数据概论一.大数据概念二.大数据的特点三.大数据能干啥? 四.大数据发展前景五.企业数据部的业务流程分析六.企业数据部的一般组织结构 Hadoop(入门) 一从Hadoop框架 ...
大数据学习路线，来qun里分享干货，
一.Linux lucene: 全文检索引擎的架构 solr: 基于lucene的全文搜索服务器,实现了可配置.可扩展并对查询性能进行了优化,并且提供了一个完善的功能管理界面. 推荐一个大数据学习群 ...
大数据学习系列之九---- Hive整合Spark和HBase以及相关测试
前言在之前的大数据学习系列之七 ----- Hadoop+Spark+Zookeeper+HBase+Hive集群搭建中介绍了集群的环境搭建,但是在使用hive进行数据查询的时候会非常的慢,因为h ...
大数据学习之Linux基础01
大数据学习之Linux基础 01:Linux简介 linux是一种自由和开放源代码的类UNIX操作系统.该操作系统的内核由林纳斯·托瓦兹在1991年10月5日首次发布.,在加上用户空间的应用程序之后 ...
大数据学习系列之—HBASE
hadoop生态系统 zookeeper负责协调 hbase必须依赖zookeeper flume 日志工具 sqoop 负责 hdfs dbms 数据转换数据到关系型数据库转换大数据学习群119 ...

随机推荐

学习MeteoInfo二次开发教程（九）
最终的MaskOut功能未能实现另外,一个有用的,在指定位置显示图片: legend.MarkerType = MarkerType.Image; legend.ImagePath = " ...
找不到visual studio模板信息解决方法
菜单->工具->选项->项目和解决方案-> 将"Visual Studio 用户项目模板位置"指向vs安装目录:"E:/Program Fil ...
Python for循环之图像练习
矩形 # 控制行 for i in range(1,5): # 控制列 for j in range(1,8): # 用end在末尾传入空格串,这样print函数就不会自动换行了 print('*', ...
批量查杀该死的VBscript “svchost.exe” 脚本挂马
今天写代码突然发现HTML文件最后多了一段VBscript代码: <SCRIPT Language=VBScript><!-- DropFileName = "svchos ...
python url监控并邮件报警
import timeimport requestsimport smtplibfrom email.mime.text import MIMETextimport datetime def Send ...
Split CSV/TXT file
void Main(){ var path = @"c:\sourceGit\speciesLatLon.txt"; var inputLines = File.ReadAllLi ...
Mybatis pageHelper.startPage(...)是物理分页
使用PageHelper.startPage(...)进行物理分页业务需求只显示其中的100条数据之前是在业务逻辑里对参数limit进行了处理后来试试sql的limit查询100条数据但是不确 ...
Inno setup 操作注册表操作参数详解
原文地址:http://www.dayanzai.me/inno-setup-tut.html [Registry] 段这个可选段用来定义一些你想用安装程序在用户系统中创建.修改或删除的注册表键/值. ...
mysql设置远程访问
Mysql远程访问设置,容许远程连接本地数据库. 1.进入本地Mysql安装目录bin下,登录Mysql, 如图: 2. 切换数据库到内置的名为“mysql”的数据库,可以看到下面的一个名为“use ...
关于 early Z 与 z-prepass
今天在考虑优化MOBA项目中的树木时(采用了ALPHATEST)时,与同事讨论中深入了解了这两个概念. 以前居然不知道有early z的存在,真是惭愧.... 上个链接: 深入剖析GPU Early ...

大数据学习（二）-------- MapReduce

大数据学习（二）-------- MapReduce的更多相关文章

随机推荐

热门专题