Hadoop学习-生态体系(ecosystem)概览

0. 大背景

全球No.1搜索引擎公司谷歌(Google)面临每天海量搜索引擎数据的问题，经过长时间的实践积累，

谷歌形成了自己的大数据框架，但是并没有开源，而是发表了一篇论文，阐述了自己的思想，在论文中

提到了MapReduce的方法。这篇论文，被Doug Cutting也就是后来的Hadoop之父所关注，引起了他极大的兴趣。

因为，这个时候，他正在致力于一个项目，该项目需要多任务并行处理大量的数据，他和伙伴努力了多次，结果都不理想。

于是，Doug和他的团队决定基于Google的MapReduce的思想重新开发一个框架。

经过一段时间的努力，于 2005 年秋天作为Lucene的子项目Nutch的一部分正式引入Hadoop项目作为Apache基金会的项目。

Hadoop这个名字不是一个缩写，而是一个虚构的名字。该项目的创建者，Doug Cutting解释Hadoop的得名：“这个名字是我孩子给一个棕黄色的大象玩具命名的。

学习Hadoop建议的参考书：Hadoop权威指南，目前中文版到第3版，英文版已经到Edition 4, 该书的作者Tom White是Hadoop创始团队的核心成员，是Hadoop委员会的成员。

大牛级的人物！！

2. 生态体系概览

经过长时间的发展，Hadoop已经形成了自己的生态体系。

有些框架是诸如一些大公司如Yahoo, Facebook团队所开发的，下面我们来看一下它的生态图：

从上图可以看出，Apache Hadoop包含如下主要组件：

* HDFS and MapReduce: 这是Hadoop的核心框架(也就是Doug Cutting和他的团队所开发的)

* HBase, Hive, Pig: 这3个框架主要负责数据存储和查询，分别由不同公司开发，我们后面会介绍到

* Flume, Sqoop：负责数据的导入/导出

* Mahout: 机器学习和分析

* Zookeeper：分布式协调

* Ambari：　　集群管理

* Avro：数据存储和序列化

* HCatalog: 元数据管理

3. 各组件分别介绍

1）Apache HBase

由于HDFS是只能追加数据的文件系统，它不允许数据的修改。

所以，Apache HBase由此而诞生。

HBase是一个分布式的，随机访问的，面向列的数据库系统。

HBase在HDFS的顶层运行，它允许应用程序开发人员直接读写HDFS数据。

但是，唯一的缺陷在于：HBase并不支持SQL语句。

所以，它也是NOSQL数据库的一种。

然而，它提供了基于命令行的界面以及丰富的API函数来更新数据。

需要提到的是：HBase中的数据是以键值对的形式存储在HDFS文件系统中的。

2）Apache Pig

Apache Pig由Yahoo开发，它提供了在MapReduce之上的抽象层。

它提供了一种叫做Pig Latin的被用来创建MapReduce程序的语言。

Pig Latin被程序员用来编写程序，分析数据，通过它可以创建并行执行的任务，

从而可以更有效地利用Hadoop的分布式集群。

Pig有很多成功的大公司项目案例，如：eBay, LinkedIn, Twitter。

3）Apache Hive

Hive被用来作为大数据的数据仓库，它也使用HDFS文件系统来存储数据。

在Hive中我们不编写MapReduce程序，因为Hive提供了一种类SQL语言，叫做HiveQL,

这让开发者能够迅速写出类似关系型数据SQL查询的点对点(ad-hoc)查询。

4）Apache ZooKeeper

Hadoop通过节点(nodes)的方式提供相互间的通信。

ZooKeeper便是被用来管理这些节点的，它被用来协调各个节点。

除了管理节点以外，它还维护一些配置信息，并且对分布式系统的服务进行分组。

ZooKeeper可以独立于Hadoop来运行，而不像生态系统中的其它组件一样。

由于ZooKeeper是基于内存来管理信息的，因此它的性能相对来说还是挺高的。

5）Apache Mahout

Mahout是一个开源的机器学习库，它能使Hadoop用户高效地进行诸如数据分析，数据挖掘以及集群等一些列操作。

Mahout对于大数据集特别高效，它提供的算法经过性能优化能够在HDFS文件系统上高效地运行MapReduce框架。

6）Apache HCatalog

HCatalog在Hadoop的顶层提供元数据的管理服务。

所有运行在Hadoop之上的软件能够使用HCatalog在HDFS文件系统中存储它们的计划(schema)。

HCatalog以REST API的方式使第三方的软件能够创建，编辑和暴露表格的定义以及生成的元数据。

因此，我们通过HCatalog并不需要知道数据的物理位置在那里。

HCatalog提供了数据定义语句(DDL),通过它们MapReduce, Pig, Hive等的工作任务将以队列的形式等待执行，如有需要

还可以监控它们各自的进度。

7）Apache Ambari

Ambari被用来监控Hadoop集群。

它提供了一些列特性，诸如：安装向导，系统警告，集群管理，任务性能等。

Ambari也提供了RESTful的API以便与其他软件进行整合。

8）Apache Avro

如何用过其它编程语言来有效地组织Hadoop的大数据，Avro便是为了这个目的而生。

Avro提供了各个节点上的数据的压缩以及存储。

基于Avro的数据存储能够轻松地被很多脚本语言诸如Python，或者非脚本语言如Java来读取。

另外，Avro还可被用来MapReduce框架中数据的序列化。

9）Apache Sqoop

Sqoop被用来在Hadoop中高效地加载大数据集，例如它允许开发人员轻松地从一些数据源，如：

关系型数据库，企业级数据仓库，甚至应用程序导入/导出数据数据。

10）Apache Flume

Flume常被用来进行日志的聚合操作，它被用来作为ETL(Extract-Transform-Load) - 解转加(解压-转换-加载）工具来使用。

好了，Hadoop生态体系以及它们的主要组件就大致介绍到这里了！

Hadoop学习-生态体系(ecosystem)概览的更多相关文章

Hadoop生态圈-大数据生态体系快速入门篇
Hadoop生态圈-大数据生态体系快速入门篇作者:尹正杰版权声明:原创作品,谢绝转载!否则将追究法律责任. 一.大数据概念 1>.什么是大数据大数据(big data):是指无法在一定时间 ...
Hadoop优势，组成的相关架构，大数据生态体系下的模式
Hadoop优势,组成的相关架构,大数据生态体系下的模式一.Hadoop的优势二.Hadoop的组成 2.1 HDFS架构 2.2 Yarn架构 2.3 MapReduce架构三.大数据生态体系 ...
阿里封神谈hadoop学习之路
阿里封神谈hadoop学习之路封神 2016-04-14 16:03:51 浏览3283 评论3 发表于: 阿里云E-MapReduce >> 开源大数据周刊 hadoop 学生 s ...
Hadoop学习路线图
Hadoop家族产品,常用的项目包括Hadoop, Hive, Pig, HBase, Sqoop, Mahout, Zookeeper, Avro, Ambari, Chukwa,新增加的项目包括, ...
Hadoop周边生态软件和简要工作原理(一)
转自:http://www.it165.net/admin/html/201307/1531.html 基本都是在群里讨论的时候,别人问的入门问题,以后想到新的问题再补充进来.但是其实入门问题也很重要 ...
Hadoop学习之旅二：HDFS
本文基于Hadoop1.X 概述分布式文件系统主要用来解决如下几个问题: 读写大文件加速运算对于某些体积巨大的文件,比如其大小超过了计算机文件系统所能存放的最大限制或者是其大小甚至超过了计算机整 ...
Hadoop学习笔记—22.Hadoop2.x环境搭建与配置
自从2015年花了2个多月时间把Hadoop1.x的学习教程学习了一遍,对Hadoop这个神奇的小象有了一个初步的了解,还对每次学习的内容进行了总结,也形成了我的一个博文系列<Hadoop学习笔 ...
Hadoop学习之旅三：MapReduce
MapReduce编程模型在Google的一篇重要的论文MapReduce: Simplified Data Processing on Large Clusters中提到,Google公司有大量的 ...
[Hadoop] Hadoop学习历程 [持续更新中…]
1. Hadoop FS Shell Hadoop之所以可以实现分布式计算,主要的原因之一是因为其背后的分布式文件系统(HDFS).所以,对于Hadoop的文件操作需要有一套全新的shell指令来完成 ...

随机推荐

ThinkPHP提交表单判断上传图片经验总结
在用TP框架开发程序处理接收到的表单的时候,要判断<input type="file" name="img">是否有上传图片,来决定是否要将对应的图 ...
20151010 C# 第一篇变量类型
20151010 变量类型: 1. 值类型:变量本身直接存储数据整数类型:代表没有小数点的整数数值类型说明范围 sbyte 8位有符号整数 -128——127 short 16位有符号整数 - ...
Storm启动流程简介
storm启动流程 storm是一个流行的开源的,分布式实时处理框架,关于storm的基本介绍可以参加这篇官方文档.大致的拓扑结构如图所示: 其中Nimbus是一个后台 ...
[ASE][Daily Scrum]11.25
View Shilin Liu 修复现有的bug,子弹无法破坏射程内视野外的墙 Yiming Liao 无法看见从视野外到视野内的子弹 Server Songtao He 服务器处理子弹命中t ...
使用本地服务器组来管理局域网或公网上的SQLSERVER
使用本地服务器组来管理局域网或公网上的SQLSERVER 测试的两台机器 Windows7 64位 SQLSERVER2005 SP5 Windows7 64位 SQLSERVER2012 S ...
Asp.Net Web API 2第十四课——Content Negotiation(内容协商)
前言阅读本文之前,您也可以到Asp.Net Web API 2 系列导航进行查看 http://www.cnblogs.com/aehyok/p/3446289.html 本文描述ASP.NET W ...
“System.Web.UI.WebControls.Literal”不允许使用子控件
今天在写下面的代码时遭遇错误——“System.Web.UI.WebControls.Literal”不允许使用子控件('System.Web.UI.WebControls.Literal' does ...
配置Hadoop开发环境（Eclipse）
参考博文: http://blog.csdn.net/zythy/article/details/17397153 http://www.tuicool.com/articles/AjUZrq 注意事 ...
深入理解java虚拟机【Java Class类文件结构】
Java语言从诞生之时就宣称一次编写,到处运行的跨平台特性,其实现原理是源码文件并没有直接编译成机器指令,而是编译成Java虚拟机可以识别和运行的字节码文件(Class类文件,*.class),字节码 ...
mongo（五）副本集
mongo(五)副本集配置文件 1-3为三个存储节点,其实一个为Primary,两个secondary作为备份,4为仲裁节点 # mongod.conf #where to log logpath= ...

Hadoop学习-生态体系(ecosystem)概览

Hadoop学习-生态体系(ecosystem)概览的更多相关文章

随机推荐

热门专题