Hadoop初步认识

Hadoop的介绍：

　　Hadoop是一个适用于大数据的并行存储和计算的平台，是 Apache的一个用java 语言实现开源软件框架，实现了在大量计算机组成的集群中对海量数据进行分布式计算。Hadoop框架的核心组成是HDFS和MapReduce，HDFS 实现存储，而 MapReduce实现数据分析与处理。

　　Hadoop开源系统实现了MapReduce编程模型，采用了分布式存储方式提高了读写速度，并扩大了存储容量。采用 MapReduce来整合分布式文件系统上的数据，可保证分析和处理数据的高效。与此同时， Hadoop还采用存储冗余数据的方式保证了数据的安全性， Hadoop中的HDFS 的高容错性，以及它是基于 Java语言开发的，这使得Hadoop可以部署在低廉的计算机集群中，同时不限于某个操作系统。 Hadoop中的HDFS 的数据管理能力，MapReduce处理任务时的高效率，以及它的开源特性，使其在同类的分布式系统中大放异彩。 MapReduce编程模型之所以受到欢迎和迅速得到应用，在技术方面有三方面的原因：
　　1.MapReduce 所采用的是无共享大规模集群系统，集群系统具有良好的性价比和可伸缩性。
　　2.MapReduce 编程模型简单，易于理解，易于使用。
　　3.虽然基本的 MapReduce 模型只提供一个过程性的编程接口，但是在海量的数据环境，需要保证可伸缩性的前提下，通过使用合适的查询优化和索引技术， MapReduce仍然能够提供相当好的数据处理性能。

Hadoop的优缺点：
（一）优点：

1）高可靠性。Hadoop 按位存储和处理数据的能力值得人们信赖；

     2）高扩展性。Hadoop 是在可用的计算机集簇间分配数据并完成计算任务的，这些集簇可以方便地扩展到数以千计的节点中；
     3）高效性。Hadoop 能够在节点之间动态地移动数据，并保证各个节点的动态平衡，因此处理速度非常快；
     4）高容错性。Hadoop 能够自动保存数据的多个副本，并且能够自动将失败的任务重新分配；

5）成本低（Economical ）：可以通过普通机器组成的服务器群来分布以及处理数据。这些服务器群总计可达数千个节点。

（二）缺点：
　　1）不适合低延迟数据访问。

　　2）无法高效存储大量小文件。

　　3）不支持多用户写入及任意修改文件。

Hadoop的角色组成：

Hadoop核心项目

　　• HDFS： Hadoop Distributed File System 分布式文件系统

　　• MapReduce：并行计算框架

HDFS的架构

• 主从结构

• 主节点，只有一个：namenode

• 从节点，有很多个：datanode

• namenode负责：

• 接收用户操作请求

• 维护文件系统的目录结构

• 管理文件与block 之间关系， block与datanode 之间关系

• datanode负责：

• 存储文件

• 文件被分成block 存储在磁盘上

• 为保证数据安全，文件会有多个副本

MapReduce的架构

• 主从结构

• 主节点，只有一个：JobTracker

• 从节点，有很多个：TaskTracker

• JobTracker负责：

• 接收客户提交的计算任务

• 把计算任务分给TaskTracker执行

• 监控TaskTracker 的执行情况

• TaskTracker负责：

• 执行JobTracker 分配的任务

Hadoop发展简史：

Hadoop是由 Apache Lucence的创始人Doug Cutting 创建的。 Hadoop这个名字不是一个缩写，而是一个虚构的名字。是创建者 Cutting的孩子给一头吃饱了的棕黄色大象取的。

Apache Nutch 项目始于 2002年，一个开源的网络搜索引擎，它本身是 Lucene项目的一部分，Lucence是一个广泛使用的文本搜索系统库。这个可以运行的网页爬取工具和搜索引擎系统很快投入使用。但后来，开发者认为这一架构可扩展不够，不能解决数十亿网页的搜索问题。

2003年， Google发表的一篇描述Google分布式文件系统 (简称GFS) 的论文为他们提供了及时的帮助，文中称Google正在使用此文件系统。 GFS或类似的东西，可以解决他们在网络抓取和索引过程中产生的大量的文件的存储需求。具体而言， GFS会省掉管理所花的时间，如管理存储节点。

2004年，他们着手实现一个开源的应用，即 Nutch的分布式文件系统(NDFS)。也在同一年， Google发表了论文，向全世界介绍了 MapReduce。

2005年初， Nutch的开发者在Nutch 上实现了一个 MapReduce系统，到年中，所有主要的 Nutch算法被移植到使用MapReduce和 NDFS来运行。

2006年 2月，开发人员将NDFS和 MapReduce移出Nutch 形成Lucene的一个子项目，称为 Hadoop。Apache Hadoop 项目正式启动以支持 MapReduce和HDFS 的独立发展。大约在同一时间， Doug Cutting加入Yahoo ！，雅虎为此组织了一个专门的团队和资源，将 Hadoop发展成一个能够处理Web数据的系统。

2008年 1月，Hadoop 已成为Apache的顶级项目，证明了它的成功、多样化、活跃性。

Hadoop大事记

2004年 -- 最初的版本( 现在称为 HDFS和MapReduce) 由Doug Cutting和 Mike Cafarella开始实施。

2005年 12月 -- Nutch 移植到新的框架， Hadoop在20 个节点上稳定运行。

2006年 01月 -- Doug Cutting 加入雅虎。

2006年 02月 -- Apache Hadoop 项目正式启动以支持 MapReduce和HDFS 的独立发展。

2006年 02月 -- 雅虎的网格计算团队采用 Hadoop。

2006年 04月 -- 标准排序 (10 GB每个节点) 在188个节点上运行 47.9个小时。

2006年 05月 -- 雅虎建立了一个 300个节点的Hadoop 研究集群。

2006年 05月 -- 标准排序在 500个节点上运行42 个小时(硬件配置比 4月的更好) 。

2006年 11月 -- 研究集群增加到 600个节点。

2006年 12月 -- 标准排序在 20个节点上运行1.8 个小时， 100个节点3.3 小时，500个节点 5.2小时，900 个节点7.8个小时。

2007年 01月 -- 研究集群到达 900个节点。

2007年 04月 -- 研究集群达到两个 1000个节点的集群。

2008年 04月 -- 赢得世界最快 1TB数据排序在900 个节点上用时 209秒。

2008年 10月 -- 研究集群每天装载 10 TB的数据。

2009年 03月 -- 17 个集群总共 24 000台机器。

2009年 04月 -- 赢得每分钟排序， 59秒内排序500 GB( 在1400个节点上 )和173 分钟内排序 100 TB数据(在3400个节点上 )。

Hadoop初步认识的更多相关文章

hadoop学习第一天-hadoop初步环境搭建&伪分布式计算配置（详细）
一.虚拟机环境搭建我们用的虚拟机为vmware,Linux镜像为centOS6.5. vmware安装安装没什么多说的,一路下一步,但是在新建虚拟机的时候有两个地方需要注意: 1.分配处理器1个就 ...
Hadoop初步简介
Hadoop产生背景: 传统方式,我们使用数据库来对数据进行管理.可是随着数据量的增加,我们要对这个数据库中的海量数据进行处理, 从中提取出有效的信息,这时候面临的问题随之而来: 1.海量数据读取,采 ...
Hadoop初步学习
我们老板理解的大数据是,从数据到知识的转化.大数据目前的应用如支付宝金融大数据.腾讯出行大数据等. 大数据的工作就是从海量数据源中筛选,梳理对自己有用的数据,整合成合适的数据结构,存储并进行可视化. ...
CentOS 配置hadoop
Hadoop是用作处理大数据用的,核心是HDFS.Map/Reduce.虽然目前工作中不需要使用这个,但是,技多不压身,经过虚拟机很多遍的尝试,终于将Hadoop2.5.2的环境顺利搭建起来了. ...
hadoop搭建初步总结
1.安装JDK1.1上传运用软件FileZilla,将windows上的jdk压缩包放到linux的root目录下 1.2解压jdk #创建文件夹 mkdir /usr/java(不要挂在在" ...
Hadoop: the definitive guide 第三版拾遗第十二章之Hive初步
Hive简介 Hive是建立在 Hadoop 上的数据仓库基础构架.它提供了一系列的工具,可以用来进行数据提取转化加载(ETL),这是一种可以存储.查询和分析存储在 Hadoop 中的大规模数据的机制 ...
Hadoop的初步理解
一.整体思维导图二.HDFS(Hadoop分布式文件系统) 说明 NameNode:保存整个文件系统的目录信息.文件信息及分块信息,这是由唯一一台主机专门保存,当然这台主机如果出错,NameNode ...
hadoop之mapreduce编程实例(系统日志初步清洗过滤处理)
刚刚开始接触hadoop的时候,总觉得必须要先安装hadoop集群才能开始学习MR编程,其实并不用这样,当然如果你有条件有机器那最好是自己安装配置一个hadoop集群,这样你会更容易理解其工作原理.我 ...
Hadoop MapReduce 初步学习总结
在Hadoop中一个作业被提交后,其后具体的执行流程要经历Map任务的提交中间结果处理,Reduce任务的分配和执行直至完成这些过程,下面就是MapReduce中作业详细的执行流程图(摘自<Ha ...

随机推荐

Hibernate的单向OneToMany、单向ManyToOne
单向OneToMany 一个用户有多张照片,User----->Images是一对多关系,在数据库中Images维护一个外键useid 1.在映射关系的主控方Image这边,我们什么都不做.(为 ...
JS滑动门,JQuery滑动门
<a href="#" id="one1" onmouseover="setTab('one',1,2)" class="h ...
window下安装composer和laravel
安装composer: 1.在https://getcomposer.org/download/ 中下载 Composer-Setup.exe 2.安装composer步骤如下: 至此,compose ...
python学习之socket创建html服务器
#coding:utf-8 import socket def process_request(request): request.recv(1024)#读取接受的字节 request.send(&q ...
RFC822DateGMT
function RFC822DateGMT(dd: TDateTime): string; const Days:..] of string= ('Sun','Mon','Tue','Wed','T ...
Python变量类型(l整型，长整形，浮点型，复数，列表，元组，字典)学习
#coding=utf-8 __author__ = 'Administrator' #Python变量类型 #Python数字,python支持四种不同的数据类型 int整型 long长整型 flo ...
转在无法通过yum下载非标准包时，怎么办
在CentOS下,我们可以通过yum来下载或更新rpm包,但是标准的源(repository)里只提供一部分的rpm包,虽然大部分情况下,这些包是够用的.但是有时候还是需要下载其他的一些非标准的包,如 ...
跨域解决方案CORS使用方法
CORS(Cross-Origin Resource Sharing), 目前CORS还处于w3c的草案,它定义了跨域访问时服务器和客户端之间如何通信.他的原理是通过定义HTTP头部的信息,来让客户端 ...
phpstorm运行在浏览器中执行php文件报502错误
原因是之前mac自带的php5.5版本被我升级到了5.6 通过phpinfo()查看到目前php5.6的安装目录重新制定一些interpreter的路径 /usr/local/php5/bin 就可 ...
Android模拟神器Genymotion eclipse插件安装问题出解决
我之前一直是打开eclipse之前直接运行Genymotion模拟器就可以连接到adb了,非常方便,但最近突然想来装个eclipse的Genymotion插件玩玩,安装时居然出错了,于是不折腾好心里不 ...

Hadoop初步认识

Hadoop初步认识的更多相关文章

随机推荐

热门专题