Hadoop点滴-初识MapReduce(1)
- 分析气候数据,计算出每年全球最高气温(P25页)
- Map阶段:输入碎片数据,输出一系列“单键单值”键值对
- 内部处理,将一系列“单键单值”键值对转化成一系列“单键多值”键值对
- Reduce阶段,输入“单键多值”键值对,输出具体结果
- Mapper类是一个泛型类型,它有四个形参类型,分别制定map函数的输入键、输入值、输出键、输出值的类型。
- Hadoop本身提供了一套可优化网络序列化传输的基本类型,而不直接使用java内嵌的类型。这些类型都在org.apache.hadoop.io包中
- Reduce函数也有四个形式参数,用于指定输入和输出类型
- reduce函数的输入类型,必须匹配map函数的输出类型
- 在Hadoop上运行作业时,要把代码打包成JAR文件。Job不在乎JAR的名称,在乎JAR中主函数所在类的名称
- 构造job对象后,需要指定输入和输出数据的路径,调用FileInputFormat类的静态方法addInputPath()来定义输入数据的路径。这个路径可以是单个文件、一个目录、或复合特定模式的一些列文件。该函数可调用多次,实现多路径输入
- 调用FileOutputFormat类中的静态方法setOutputPath()来制定输出路径(只能有一个输出路径),且该路径是不应该存在的。
- 通过setOutputKeyClass()、setOutputValueClass()方法控制reduce函数的输出类型,必须和reduce类产出的向匹配
- map函数的输出类型默认情况下和reduce函数是相同的,不需要单独设置;如果不同,调用setMapOutputKeyClass、setMapOutputValueClss来设置map函数的输出类型
- FileInputFormat函数负责完成数据分块,并传递给map
- hadoop 的map key是如何来划分:
- 一般的hadoop任务,有三段传输要搞清楚,首先是hadoop整理给map的输入map(key1,value1),这段默认是各个文件的每一行作为输入,此时key1是此行在文件中的偏移量,value1则是行号;其次是map输出(key2,value2)这段是给reduce做为输入的,也就是reduce(key2,inter<value2>)的输入;第三部分是reduce输出(key3,value3)。
map的key一般不是考虑的因素,考虑更多是value的值,比如每个文件做输入,文件内容才是最重要;每行做输入,行内容才是重要。
- 一般的hadoop任务,有三段传输要搞清楚,首先是hadoop整理给map的输入map(key1,value1),这段默认是各个文件的每一行作为输入,此时key1是此行在文件中的偏移量,value1则是行号;其次是map输出(key2,value2)这段是给reduce做为输入的,也就是reduce(key2,inter<value2>)的输入;第三部分是reduce输出(key3,value3)。
- 运行job(Hadoop会启动一个JVM来运行这个类,所以可以通过FileInputFormat静态方法设置输出路径)
export HADOOP_CLASSPATH=hadoop-examples.jar
hadoop MaxTemperature(类名) input/ncdc/sample.txt(参数一,输入文件路径,本地文件系统) output(参数二,输出文件路径,本地文件系统)
Hadoop点滴-初识MapReduce(1)的更多相关文章
- Hadoop点滴-初识MapReduce(2)
术语: job(作业):客户端需要执行的一个工作单元,包括输入数据.MP程序.配置信息 Hadoop将job分成若干task(任务)来执行,其中包括两类任务:map任务.reduce任务.这些任务在集 ...
- Hadoop学习笔记—4.初识MapReduce
一.神马是高大上的MapReduce MapReduce是Google的一项重要技术,它首先是一个编程模型,用以进行大数据量的计算.对于大数据量的计算,通常采用的处理手法就是并行计算.但对许多开发者来 ...
- Hadoop 中利用 mapreduce 读写 mysql 数据
Hadoop 中利用 mapreduce 读写 mysql 数据 有时候我们在项目中会遇到输入结果集很大,但是输出结果很小,比如一些 pv.uv 数据,然后为了实时查询的需求,或者一些 OLAP ...
- 从Hadoop框架与MapReduce模式中谈海量数据处理(含淘宝技术架构) (转)
转自:http://blog.csdn.net/v_july_v/article/details/6704077 从hadoop框架与MapReduce模式中谈海量数据处理 前言 几周前,当我最初听到 ...
- 每天收获一点点------Hadoop之初始MapReduce
一.神马是高大上的MapReduce MapReduce是Google的一项重要技术,它首先是一个编程模型,用以进行大数据量的计算.对于大数据量的计算,通常采用的处理手法就是并行计算.但对许多开发者来 ...
- Hadoop权威指南:MapReduce应用开发
Hadoop权威指南:MapReduce应用开发 [TOC] 一般流程 编写map函数和reduce函数 编写驱动程序运行作业 用于配置的API Hadoop中的组件是通过Hadoop自己的配置API ...
- hadoop系列三:mapreduce的使用(一)
转载请在页首明显处注明作者与出处 http://www.cnblogs.com/zhuxiaojie/p/7224772.html 一:说明 此为大数据系列的一些博文,有空的话会陆续更新,包含大数据的 ...
- hadoop系列四:mapreduce的使用(二)
转载请在页首明显处注明作者与出处 一:说明 此为大数据系列的一些博文,有空的话会陆续更新,包含大数据的一些内容,如hadoop,spark,storm,机器学习等. 当前使用的hadoop版本为2.6 ...
- 【Big Data - Hadoop - MapReduce】初学Hadoop之图解MapReduce与WordCount示例分析
Hadoop的框架最核心的设计就是:HDFS和MapReduce.HDFS为海量的数据提供了存储,MapReduce则为海量的数据提供了计算. HDFS是Google File System(GFS) ...
随机推荐
- unity_小功能实现(碰撞检测)
1.触发器Trigger:勾选IsTrigger属性 //当player刚进入触发区域的时刻发生触发检测,比如在靠近门的某个区域门一直处于开着状态 void OnTriggerEnter(Collid ...
- 【数据库】MySQL 函数大全包含示例(涵盖了常用如时间、数字、字符串处理、数据流函数的和一些冷门的)
ps:博客园markdown不能自动生成列表,更好的阅读体验可访问我的个人博客http://www.isspark.com/archives/mysqlFunctionDesc 数学函数(Mathem ...
- P3469 [POI2008]BLO-Blockade 割点 tarjan
题意 给定一个无向图,问删掉点i,图中相连的有序对数.(pair<x, y> , x != y);求每个点对应的答案 思路 首先我们可以发现,如果这个点不是割点,那么答案就是n-1,如果是 ...
- 洛谷 P2051 [AHOI2009]中国象棋 状态压缩思想DP
P2051 [AHOI2009]中国象棋 题意: 给定一个n*m的空棋盘,问合法放置任意多个炮有多少种情况.合法放置的意思是棋子炮不会相互打到. 思路: 这道题我们可以发现因为炮是隔一个棋子可以打出去 ...
- Luogu-P1027 Car的旅行路线 已知三点确定矩形 + 最短路
传送门:https://www.luogu.org/problemnew/show/P1027 题意: 图中有n个城市,每个城市有4个机场在矩形的四个顶点上.一个城市间的机场可以通过高铁通达,不同城市 ...
- 模板汇总——treap
1. 旋转treap. 思想:一颗权值BST + 一颗 随机数 最小堆. BZOJ - 3224 代码: #include<bits/stdc++.h> using namespace s ...
- Allegro PCB导入DXF文件详解
一:导入方法 1.确认Allegro PCB的单位精度设置和DXF文件保持一致(一般情况下DXF文件用mm,Allegro文件用mil). 2. 在Allegro中点击File→Import→DXF… ...
- springmvc 全局异常解决方案
系统中异常包括两类:预期异常和运行时异常RuntimeException,前者通过捕获异常从而获取异常信息,后者主要通过规范代码开发.测试通过手段减少运行时异常的发生. 系统的dao.service. ...
- IDC数据中心应具备如下基本条件:
IDC数据中心应具备如下基本条件: 电力:有充足的直流电力保证,同时还应具备UPS不间断电源及充足的电池组以备用.高端数据中心通常配备柴油发电机等. 环境:符合电信标准的建筑设施,防尘防静电,相对适合 ...
- 如何将 JavaScript 代码添加到网页中,以及 <script> 标签的属性
Hello, world! 本教程的这一部分内容是关于 JavaScript 语言本身的. 但是,我们需要一个工作环境来运行我们的脚本,由于本教程是在线的,所以浏览器是一个不错的选择.我们会尽可能少地 ...