Hadoop基本原理之一：MapReduce

1、为什么需要Hadoop

目前，一块硬盘容量约为1TB，读取速度约为100M/S，因此完成一块硬盘的读取需时约2.5小时（写入时间更长）。若把数据放在同一硬盘上，且全部数据均需要同一个程序进行处理，此程序的处理时间将主要浪费在I/O时间上。

在过去几十年，硬盘的读取速度并未明显增长，而网络传输速度此飞速上升。

因此，若把数据分散到多个硬盘上进行存储（如分成100份存储在100个硬盘上），则读取数据所需时间大大减少，并将各节点处理好的结果通过网络进行传输。

但这将导致2个问题

（1）数据被分散到多个硬盘中，某个盘发生故障导致部分数据出错的可能性大大增加，因此需要对数据进行复制备份======>> HDFS!!

（2）数据分散在多个盘，一般会在本地进行初步处理，，如何将处理结果进行合并============>>MapReduce!!!

2、基本节点

在Hadoop中，主要有以下5类节点：

（1） JobTracker

（2） TaskTracker

（3） NameNode

（4） DataNode

（5） SecondaryNameNode

3、零碎理论

（1）Hadoop将MapReduce的输入分成固定大小的切片，称为input split。大多数情况下，切片的大小与HDFS块的大小相等（默认情况下是64M)。

（2）

4、本地数据优先

Hadoop倾向于在存储数据的节点上进行map处理，这称为data locality optimization。

（1）首先，hadoop倾向于将数据在本地节点进行数据，如图中的a.

（2）若存储数据的节点有其它task正在进行处理，则在本机架内寻找另一个节点进行数据处理，如图中b。

（3）若本机架内所有节点均有task正在进行处理，则在其它机架内寻找节点进行数据处理。

5、MapReduce的数据流向

（1）单reducer情况

（2）多reducer情况

6、Combiner

在map与reduce之间，可以增加combiner函数，对map产生的结果进行预处理。

Hadoop基本原理之一：MapReduce的更多相关文章

Hadoop 中利用 mapreduce 读写 mysql 数据
Hadoop 中利用 mapreduce 读写 mysql 数据有时候我们在项目中会遇到输入结果集很大,但是输出结果很小,比如一些 pv.uv 数据,然后为了实时查询的需求,或者一些 OLAP ...
从Hadoop框架与MapReduce模式中谈海量数据处理（含淘宝技术架构） (转)
转自:http://blog.csdn.net/v_july_v/article/details/6704077 从hadoop框架与MapReduce模式中谈海量数据处理前言几周前,当我最初听到 ...
每天收获一点点------Hadoop之初始MapReduce
一.神马是高大上的MapReduce MapReduce是Google的一项重要技术,它首先是一个编程模型,用以进行大数据量的计算.对于大数据量的计算,通常采用的处理手法就是并行计算.但对许多开发者来 ...
Hadoop权威指南:MapReduce应用开发
Hadoop权威指南:MapReduce应用开发 [TOC] 一般流程编写map函数和reduce函数编写驱动程序运行作业用于配置的API Hadoop中的组件是通过Hadoop自己的配置API ...
hadoop系列三:mapreduce的使用(一)
转载请在页首明显处注明作者与出处 http://www.cnblogs.com/zhuxiaojie/p/7224772.html 一:说明此为大数据系列的一些博文,有空的话会陆续更新,包含大数据的 ...
hadoop系列四:mapreduce的使用(二)
转载请在页首明显处注明作者与出处一:说明此为大数据系列的一些博文,有空的话会陆续更新,包含大数据的一些内容,如hadoop,spark,storm,机器学习等. 当前使用的hadoop版本为2.6 ...
【Big Data - Hadoop - MapReduce】初学Hadoop之图解MapReduce与WordCount示例分析
Hadoop的框架最核心的设计就是:HDFS和MapReduce.HDFS为海量的数据提供了存储,MapReduce则为海量的数据提供了计算. HDFS是Google File System(GFS) ...
初学Hadoop之图解MapReduce与WordCount示例分析
Hadoop的框架最核心的设计就是:HDFS和MapReduce.HDFS为海量的数据提供了存储,MapReduce则为海量的数据提供了计算. HDFS是Google File System(GFS) ...
Hadoop生态圈-使用MapReduce处理HBase数据
Hadoop生态圈-使用MapReduce处理HBase数据作者:尹正杰版权声明:原创作品,谢绝转载!否则将追究法律责任. 一.对HBase表中数据进行单词统计(TableInputFormat) ...
[hadoop][基本原理]zookeeper简单使用
代码:https://github.com/xufeng79x/ZkClientTest 1.简介 zookeeper的基本原理和使用场景描述可参考:[hadoop][基本原理]zookeeper基本 ...

随机推荐

Python读取Yaml文件
近期看到好多使用Yaml文件做为配置文件或者数据文件的工程,随即也研究了下,发现Yaml有几个优点:可读性好.和脚本语言的交互性好(确实非常好).使用实现语言的数据类型.有一个一致的数据模型.易于实现 ...
XML DOM 遍历Xml文档
1.xml文档内容: <?xml version="1.0" encoding="utf-8" ?> <bookstore> <b ...
C语言初学计算三角形面积问题
#include<stdio.h> #include<math.h> #include<stdlib.h> int main() { float a,b,c,s,a ...
MySQL锁等待分析【1】
场景: 昨天业务系统上遇到了数据库慢的问题(对dcsdba.og_file_audit表的insert 慢&超时).分析后定位到是由于锁等待造成的.分析过程如下: 1.执行show proce ...
iOS应用崩溃日志分析－备用
作为一名应用开发者,你是否有过如下经历? 为确保你的应用正确无误,在将其提交到应用商店之前,你必定进行了大量的测试工作.它在你的设备上也运行得很好,但是,上了应用商店后,还是有用户抱怨会闪退 ! ...
Codeforces 449D Jzzhu and Numbers
http://codeforces.com/problemset/problem/449/D 题意:给n个数,求and起来最后为0的集合方案数有多少思路:考虑容斥,ans=(-1)^k*num(k) ...
CMAKE 生成VS2008静态库工程与 CMAKE使用，CMakeLists.txt编写总结
cmake -G"Visual Studio 9 2008 Win64" 以上命令得用cd命令切换到顶层CMakeLists.txt的当前目录,才能生效以下是CMakeLists ...
【剑指offer】面试题37：两个链表的第一个公共结点
题目: 输入两个链表,找出它们的第一个公共结点. 思路: 由链表的定义知是单链表.对于单链表,如果两个链表有公共结点,则两个链表必然是像Y型相交.则先计算出各个链表的长度,让长链表的头指针先走多出来的 ...
股票市场问题（The Stock Market Problem）
Question: Let us suppose we have an array whose ith element gives the price of a share on the day i. ...
NetAnalyzer笔记之九使用C#对HTTP数据还原
[创建时间:2016-05-12 00:19:00] NetAnalyzer下载地址在NetAnalyzer2016中加入了一个HTTP分析功能,很过用户对此都很感兴趣,那么今天写一下具体的实现方式 ...

Hadoop基本原理之一：MapReduce

Hadoop基本原理之一：MapReduce的更多相关文章

随机推荐

热门专题