大数据学习之路（1）Hadoop生态体系结构

Hadoop的核心是HDFS和MapReduce，hadoop2.0还包括YARN。

Hadoop1.x的生态系统：

Hadoop2.x引入YARN：

HDFS（Hadoop分布式文件系统）
源自于Google的GFS论文，发表于2003年10月，HDFS是GFS克隆版。
是Hadoop体系中数据存储管理的基础。它是一个高度容错的系统，能检测和应对硬件故障，用于在低成本的通用硬件上运行。HDFS简化了文件的一致性模型，通过流式数据访问，提供高吞吐量应用程序数据访问功能，适合带有大型数据集的应用程序。
HDFS这一部分主要有以下几个部分组成：

Client：切分文件；访问HDFS；与NameNode交互，获取文件位置信息；与DataNode交互，读取和写入数据。
NameNode：Master节点，在hadoop1.X中只有一个，管理HDFS的名称空间和数据块映射信息，配置副本策略，处理客户端请求。对于大型的集群来讲，Hadoop1.x存在两个最大的缺陷：
1)对于大型的集群，namenode的内存成为瓶颈，namenode的扩展性的问题；
2）namenode的单点故障问题。
针对以上的两个缺陷，Hadoop2.x以后分别对这两个问题进行了解决。
对于缺陷1）提出了Federation namenode来解决，该方案主要是通过多个namenode来实现多个命名空间来实现namenode的横向扩张。从而减轻单个namenode内存问题。
针对缺陷2），hadoop2.X提出了实现两个namenode实现热备HA的方案来解决。其中一个是处于standby状态，一个处于active状态。
DataNode：Slave节点，存储实际的数据，汇报存储信息给NameNode。
Secondary NameNode：辅助NameNode，分担其工作量；定期合并fsimage和edits，推送给NameNode；紧急情况下，可辅助恢复NameNode，但Secondary NameNode并非NameNode的热备。
目前，在硬盘不坏的情况，我们可以通过secondarynamenode来实现namenode的恢复。
Mapreduce（分布式计算框架）
源自于google的MapReduce论文，发表于2004年12月，Hadoop MapReduce是google MapReduce 克隆版。MapReduce是一种计算模型，用以进行大数据量的计算。其中Map对数据集上的独立元素进行指定的操作，生成键-值对形式中间结果。Reduce则对中间结果中相同“键”的所有“值”进行规约，以得到最终结果。MapReduce这样的功能划分，非常适合在大量计算机组成的分布式并行环境里进行数据处理。
MapReduce计算框架发展到现在有两个版本的MapReduce的API，针对MR1主要组件有以下几个部分组成：
（1）JobTracker：Master节点，只有一个，主要任务是资源的分配和作业的调度及监督管理，管理所有作业，作业/任务的监控、错误处理等；将任务分解成一系列任务，并分派给TaskTracker。
（2）TaskTracker：Slave节点，运行Map Task和Reduce Task；并与JobTracker交互，汇报任务状态。
（3）Map Task：解析每条数据记录，传递给用户编写的map(),并执行，将输出结果写入本地磁盘。
（4）Reducer Task：从Map Task的执行结果中，远程读取输入数据，对数据进行排序，将数据按照分组传递给用户编写的reduce函数执行。
在这个过程中，有一个shuffle过程，对于该过程是理解MapReduce计算框架是关键。该过程包含map函数输出结果到reduce函数输入这一个中间过程中所有的操作，称之为shuffle过程。在这个过程中，可以分为map端和reduce端。

Map端：

1）输入数据进行分片之后，分片的大小跟原始的文件大小、文件块的大小有关。每一个分片对应的一个map任务。
2） map任务在执行的过程中，会将结果存放到内存当中，当内存占用达到一定的阈值（这个阈值是可以设置的）时，map会将中间的结果写入到本地磁盘上，形成临时文件这个过程叫做溢写。
3） map在溢写的过程中，会根据指定reduce任务个数分别写到对应的分区当中，这就是partition过程。每一个分区对应的是一个reduce任务。并且在写的过程中，进行相应的排序。在溢写的过程中还可以设置conbiner过程，该过程跟reduce产生的结果应该是一致的，因此该过程应用存在一定的限制，需要慎用。
4）每一个map端最后都只存在一个临时文件作为reduce的输入，因此会对中间溢写到磁盘的多个临时文件进行合并Merge操作。最后形成一个内部分区的一个临时文件。

Reduce端：

1）首先要实现数据本地化，需要将远程节点上的map输出复制到本地。
2） Merge过程，这个合并过程主要是对不同的节点上的map输出结果进行合并。
3）不断的复制和合并之后，最终形成一个输入文件。Reduce将最终的计算结果存放在HDFS上。
针对MR2是新一代的MR的API。其主要是运行在Yarn的资源管理框架上。

关于Hadoop2.x原理参考https://www.cnblogs.com/yangsy0915/p/5559969.html

Yarn（资源管理框架）
该框架是hadoop2.x以后对hadoop1.x之前JobTracker和TaskTracker模型的优化，而产生出来的，将JobTracker的资源分配和作业调度及监督分开。该框架主要有ResourceManager，Applicationmatser，nodemanager。其主要工作过程如下：

ResourceManager主要负责所有的应用程序的资源分配，
ApplicationMaster主要负责每个作业的任务调度，也就是说每一个作业对应一个ApplicationMaster。
Nodemanager是接收Resourcemanager 和ApplicationMaster的命令来实现资源的分配执行体。
ResourceManager在接收到client的作业提交请求之后，会分配一个Conbiner，这里需要说明一下的是Resoucemanager分配资源是以Conbiner为单位分配的。第一个被分配的Conbiner会启动Applicationmaster，它主要负责作业的调度。Applicationmanager启动之后则会直接跟NodeManager通信。
在YARN中，资源管理由ResourceManager和NodeManager共同完成，其中，ResourceManager中的调度器负责资源的分配，而NodeManager则负责资源的供给和隔离。ResourceManager将某个NodeManager上资源分配给任务（这就是所谓的“资源调度”）后，NodeManager需按照要求为任务提供相应的资源，甚至保证这些资源应具有独占性，为任务运行提供基础的保证，这就是所谓的资源隔离。
在Yarn平台上可以运行多个计算框架，如：MR，Tez，Storm，Spark等计算，框架。

Sqoop（数据同步工具）
Sqoop是SQL-to-Hadoop的缩写，主要用于传统数据库和Hadoop之间传输数据。数据的导入和导出本质上是Mapreduce程序，充分利用了MR的并行化和容错性。其中主要利用的是MP中的Map任务来实现并行导入，导出。Sqoop发展到现在已经出现了两个版本，一个是sqoop1.x.x系列，一个是sqoop1.99.X系列。对于sqoop1系列中，主要是通过命令行的方式来操作。

sqoop1 import原理：从传统数据库获取元数据信息(schema、table、field、field type)，把导入功能转换为只有Map的Mapreduce作业，在mapreduce中有很多map，每个map读一片数据，进而并行的完成数据的拷贝。
sqoop1 export原理：获取导出表的schema、meta信息，和Hadoop中的字段match；多个map only作业同时运行，完成hdfs中数据导出到关系型数据库中。
Sqoop1.99.x是属于sqoop2的产品，该款产品目前功能还不是很完善，处于一个测试阶段，一般并不会应用于商业化产品当中。
Mahout（数据挖掘算法库）
Mahout起源于2008年，最初是Apache Lucent的子项目，它在极短的时间内取得了长足的发展，现在是Apache的顶级项目。相对于传统的MapReduce编程方式来实现机器学习的算法时，往往需要话费大量的开发时间，并且周期较长，而Mahout的主要目标是创建一些可扩展的机器学习领域经典算法的实现，旨在帮助开发人员更加方便快捷地创建智能应用程序。
Mahout现在已经包含了聚类、分类、推荐引擎（协同过滤）和频繁集挖掘等广泛使用的数据挖掘方法。除了算法，Mahout还包含数据的输入/输出工具、与其他存储系统（如数据库、MongoDB 或Cassandra）集成等数据挖掘支持架构。
mahout的各个组件下面都会生成相应的jar包。此时我们需要明白一个问题：到底如何使用mahout呢？
　　实际上，mahout只是一个机器学习的算法库，在这个库当中是想了相应的机器学习的算法，如：推荐系统（包括基于用户和基于物品的推荐），聚类和分类算法。并且这些算法有些实现了MapReduce，spark从而可以在hadoop平台上运行，在实际的开发过程中，只需要将相应的jar包即可。
　　

Hbase（分布式列存数据库）
源自Google的Bigtable论文，发表于2006年11月，传统的关系型数据库是对面向行的数据库。HBase是Google Bigtable克隆版，HBase是一个针对结构化数据的可伸缩、高可靠、高性能、分布式和面向列的动态模式数据库。和传统关系数据库不同，HBase采用了BigTable的数据模型：增强的稀疏排序映射表（Key/Value），其中，键由行关键字、列关键字和时间戳构成。HBase提供了对大规模数据的随机、实时读写访问，同时，HBase中保存的数据可以使用MapReduce来处理，它将数据存储和并行计算完美地结合在一起。
Hbase表的特点

大：一个表可以有数十亿行，上百万列；
无模式：每行都有一个可排序的主键和任意多的列，列可以根据需要动态的增加，同一张表中不同的行可以有截然不同的列；
面向列：面向列（族）的存储和权限控制，列（族）独立检索；
稀疏：空（null）列并不占用存储空间，表可以设计的非常稀疏；
数据多版本：每个单元中的数据可以有多个版本，默认情况下版本号自动分配，是单元格插入时的时间戳；
数据类型单一：Hbase中的数据都是字符串，没有类型。
Hbase物理模型
每个column family存储在HDFS上的一个单独文件中，空值不会被保存。
Key 和 Version number在每个 column family中均有一份；
HBase 为每个值维护了多级索引,即：”key, column family, column name, timestamp”，其物理存储：

Table中所有行都按照row key的字典序排列；
Table在行的方向上分割为多个Region；
Region按大小分割的，每个表开始只有一个region，随着数据增多，region不断增大，当增大到一个阀值的时候，region就会等分会两个新的region，之后会有越来越多的region；
Region是Hbase中分布式存储和负载均衡的最小单元，不同Region分布到不同RegionServer上。、
Region虽然是分布式存储的最小单元，但并不是存储的最小单元。Region由一个或者多个Store组成，每个store保存一个columns family；每个Strore又由一个memStore和0至多个StoreFile组成，StoreFile包含HFile；memStore存储在内存中，StoreFile存储在HDFS上。
Zookeeper（分布式协作服务）
源自Google的Chubby论文，发表于2006年11月，Zookeeper是Chubby克隆版，主要解决分布式环境下的数据管理问题：统一命名，状态同步，集群管理，配置同步等。
Zookeeper的主要实现两步：

选举Leader
同步数据。这个组件在实现namenode的HA高可用性的时候，需要用到。
Pig（基于Hadoop的数据流系统）
由yahoo!开源，设计动机是提供一种基于MapReduce的ad-hoc(计算在query时发生)数据分析工具
定义了一种数据流语言—Pig Latin，将脚本转换为MapReduce任务在Hadoop上执行。通常用于进行离线分析。

Hive（基于Hadoop的数据仓库）
由facebook开源，最初用于解决海量结构化的日志数据统计问题。
Hive定义了一种类似SQL的查询语言(HQL),将SQL转化为MapReduce任务在Hadoop上执行。通常用于离线分析。

Flume（日志收集工具）
Cloudera开源的日志收集系统，具有分布式、高可靠、高容错、易于定制和扩展的特点。
它将数据从产生、传输、处理并最终写入目标的路径的过程抽象为数据流，在具体的数据流中，数据源支持在Flume中定制数据发送方，从而支持收集各种不同协议数据。同时，Flume数据流提供对日志数据进行简单处理的能力，如过滤、格式转换等。此外，Flume还具有能够将日志写往各种数据目标（可定制）的能力。总的来说，Flume是一个可扩展、适合复杂环境的海量日志收集系统。

大数据学习之路（1）Hadoop生态体系结构的更多相关文章

大数据学习之路之Hadoop
Hadoop介绍一.简介 Hadoop是一个开源的分布式计算平台,用于存储大数据,并使用MapReduce来处理.Hadoop擅长于存储各种格式的庞大的数据,任意的格式甚至非结构化的处理.两个核心: ...
大数据学习之路又之从小白到用sqoop导出数据
写这篇文章的目的是总结自己学习大数据的经验,以为自己走了很多弯路,从迷茫到清晰,真的花费了很多时间,希望这篇文章能帮助到后面学习的人. 一.配置思路安装linux虚拟机--->创建三台虚拟机- ...
大数据学习之路------借助HDP SANDBOX开始学习
一开始... 一开始知道大数据这个概念的时候,只是感觉很高大上,引起了我的兴趣.当时也不知道,这个东西是做什么的,有什么用,当然现在看来也是很模糊的样子,但是的确比一开始强了不少. 所以学习的过程可能 ...
大数据学习笔记之初识Hadoop
1.Hadoop概述 1.1 Hadoop名字的由来 Hadoop项目作者的孩子给一个棕黄色的大象样子的填充玩具的命名 Hadoop的官网:http://hadoop.apache.org . 1.2 ...
大数据学习之路之HBASE
Hadoop之HBASE 一.HBASE简介 HBase是一个开源的.分布式的,多版本的,面向列的,半结构化的NoSql数据库,提供高性能的随机读写结构化数据的能力.它可以直接使用本地文件系统,也可以 ...
大数据学习——搭建第一台Hadoop主机
类型:学习笔记参考:尚硅谷大数据系列教程工具准备 1.VMware 2.CentOS 7 最小安装版 3.远程工具推荐使用 FinalShell 安装系统 1.打开VMware,根据自己的情况配置 ...
大数据学习之路-hdfs
1.什么是hadoop hadoop中有3个核心组件: 分布式文件系统:HDFS —— 实现将文件分布式存储在很多的服务器上分布式运算编程框架:MAPREDUCE —— 实现在很多机器上分布式并行运 ...
大数据学习（1）Hadoop安装
集群架构 Hadoop的安装其实就是HDFS和YARN集群的配置,从下面的架构图可以看出,HDFS的每一个DataNode都需要配置NameNode的位置.同理YARN中的每一个NodeManager ...
大数据学习之路——MySQL基础（一）——MySQL的基础知识与常见操作
一.存储引擎 1.含义存储引擎是数据库底层软件组织,数据库管理系统(DBMS)使用数据引擎进行创建.查询.更新和删除数据.不同的存储引擎提供不同的存储机制.索引技巧.锁定水平等功能,使用不同的存储引 ...

随机推荐

header头参数确定该文件类型
'chm'=>'application/octet-stream', 'ppt'=>'application/vnd.ms-powerpoint', 'xls'=>'applicat ...
记一次Vue中v-model和v-bind区别
由于v-model 只是语法糖, <input v-model="message"> 与下面的两行代码是一致的: <input v-bind:value=&quo ...
网上搜集python面试题（更新中......）
武Sir博客拿的面试题,答案都是自己写的,多有不足,请多多指教.更新中...... 1.为什么学习Python? a.写起来快,看起来明白.作为通用性的语言,除了一些对性能要求很高的场合,几乎什么都能 ...
html中头meta信息
一.页面关键字网站关键字:用户通过搜索引擎能搜到该网站的词汇.最好控制在10个以内. 基本语法: <meta name="keywords" content="具 ...
一个简单springboot搭建
首先,新建一个maven项目,new maven project 然后打开pom.xml,引入需要的jar包,代码如下: <parent> <groupId>org.sprin ...
Python之进度条及π的计算
Python之进度条及π的计算文本进度条 1. 简单的开始这是利用print()函数来实现简单的非刷新文本进度条.它的基本思想是按照任务执行百分比将整个任务划分为100个单位,每执行N%输出一次 ...
Java入门练习之四则运算
Java入门练习之四则运算项目目的制作一个Java控制台程序,让他可以随机生成四则运算,并针对用户的输入判断对错. 项目分析该项目本质上是一个四则运算出题器,可以创建一个Question类,其中 ...
批量找注入 python3+sqlmap结合
注入一直都是用sqlmap 导致本来就不怎么精通的手工注入现在就忘的一干二净想实战练习却一时又找不到有注入的网站于是便有了这篇文章想找个批量获取域名链接的工具但都是只是获取域名而 ...
zabbix免客户端监控网站URL
1.我们需要在zabbix服务器端(这台服务器需要能正常上网)同时安装zabbix-agent客户端,使其正常监控zabbix服务器 2.创建web监测点击web监测创建web监测 3.配置异常报 ...
第6章 Hyperledger Fabric模型
This section outlines the key design features woven into Hyperledger Fabric that fulfill its promise ...

大数据学习之路（1）Hadoop生态体系结构

大数据学习之路（1）Hadoop生态体系结构的更多相关文章

随机推荐

热门专题