一、hadoop生态系统特点

开源、社区活跃、涉及分布式存储和计算的整个生态系统、已得到企业界验证。

hadoop1.0与2.0版本的比较:

1.0包含HDFS+MapReduce。

2.0包括HDFS+YARN+MapReduce+Others

主要区别在于引入了YARN层。集群资源管理层。

二、hadoop介绍(以2.0版本为主)

1、分布式存储系统HDFS

分布式存储系统

提供了高可靠性、高扩展性和高吞吐率的数据存储服务。

具备线性扩展的能力。

源自于Google的GFS论文,HDFS是GFS的克隆版。

HDFS具有良好的扩展性、高容错性(通过数据冗余来实现)、适合PB级以上海量数据的存储。

基本原理:

将文件切分为等大的数据库,存储到多台机器上(分布式文件存储系统)

将数据切分、容错、负载均衡等功能透明化。

可将HDFS看成一个容量巨大、具有高容错性的磁盘。

namenode、datanode、zookeeper。

应用场景:

海量数据的可靠性存储。

数据归档。

HDFS架构图(待补充):master-slave架构

2、资源管理系统YARN(Yet Another Resource Negotiator)

负责集群资源的统一管理和调度。是hadoop2.0新增的系统。

使得多个计算框架可以运行在一个集群中。

具有良好的扩展性、高可用性。

自带了多种多用户调度器,适合共享集群环境。

YARN调度图(待补充)

YARN 架构图(待补充):master-slave结构。

3、分布式计算框架MapReduce

分布式计算框架。易于编程、高容错性、高扩展性。

源自于Google的MapReduce论文。

具有良好的扩展性、高容错性(某个节点失败调度到其他节点)、适合PB级以上的海量数据的离线处理。

架构图(待补充)

三、hadoop生态系统

1.0生态系统图。

2.0生态系统图。

HDFS、MapReduce、Hive(数据仓库)、pig(工作流引擎)、mahout(数据挖掘库)、

Oozie(作业流调度系统)、Hbase(分布式数据库)、sqoop(数据TEL工具)、

Flume(日志收集)、Zookeeper(分布式协调服务)、Ambari(安装部署工具)

YARN、Tez(DAG计算)、Spark(内存计算)、Hive2、Pig2、shark

hive:基于MR的数据仓库,是Facebook开源的。Hive定义了HQL查询语言。通常用于离线数据处理。是MR的语言翻译器。

应用于日志分析,统计网站的PV\UV。

海量结构化数据离线分析。

低成本进行数据分析(因为不需要写MR程序)

Hive架构图。

pig:Yahoo开源,目的是提供一种基于MR的数据分析工具。定义了Pig Latin数据流语言。

Mahout:数据挖掘库,基于hadoop的机器学习和数据挖掘的工具。实现了很多聚类、分类算法。

HBase:源自于Google的Bigtable论文。高可用、高性能、面向列、高扩展性。

Zookeeper:源自于Google的Chubby论文。解决分布式环境下数据管理问题:

统一命名、状态同步、集群管理、配置同步。

Sqoop:数据同步工具。支持多种数据库(MySQL、DB2等),连接hadoop和传统数据库的桥梁。

Flume:cloudera开源的日志收集工具。将日志导入到hadoop中。

Oozie:作业流调度系统。

不同作业之间存在依赖关系(DAG),周期性作业、定时执行的作业、作业执行状态监控与报警。

四、hadoop生态系统版本衍化

Apache hadoop、CDH(推荐)、HDP。

hadoop入门(1)——hadoop概述的更多相关文章

  1. 大数据初级笔记二:Hadoop入门之Hadoop集群搭建

    Hadoop集群搭建 把环境全部准备好,包括编程环境. JDK安装 版本要求: 强烈建议使用64位的JDK版本,这样的优势在于JVM的能够访问到的最大内存就不受限制,基于后期可能会学习到Spark技术 ...

  2. hadoop入门:hadoop使用shell命令总结

    第一部分:Hadoop Bin后面根据项目的实际需要Hadoop Bin  包括:Hadoop  hadoop的Shellhadoop-config.sh 它的作用是对一些变量进行赋值     HAD ...

  3. Hadoop入门——初识Hadoop

    一.hadoop是什么 Hadoop被公认是一套行业大数据标准开源软件,在分布式环境下提供了海量数据的处理能力.几乎所有主流厂商都围绕Hadoop开发工具.开源软件.商业化工具和技术服务.今年大型IT ...

  4. hadoop入门篇-hadoop下载安装教程(附图文步骤)

    在前几篇的文章中分别就虚拟系统安装.LINUX系统安装以及hadoop运行服务器的设置等内容写了详细的操作教程,本篇分享的是hadoop的下载安装步骤. 在此之前有必要做一个简单的说明:分享的所有内容 ...

  5. Hadoop入门 之 Hadoop的安装

    1.安装Hadoop的三大步骤 答:1.Linux环境,2.JDK环境,3.配置Hadoop. 2.安装Linux 答:利用阿里云,腾讯云等公有云.选择Ubuntu进行安装,然后利用小putty进行操 ...

  6. Hadoop入门 之 Hadoop常识

    1.Hadoop是什么? 答:Hadoop是开源的分布式存储和分布式计算平台. 2.Hadoop的组成是什么? 答:Hadoop由HDFS和MapReduce这两个核心部分组成. HDFS(Hadoo ...

  7. 初识Hadoop入门介绍

    初识hadoop入门介绍 Hadoop一直是我想学习的技术,正巧最近项目组要做电子商城,我就开始研究Hadoop,虽然最后鉴定Hadoop不适用我们的项目,但是我会继续研究下去,技多不压身. < ...

  8. Hadoop入门必须知道的简单知识

    Hadoop入门知识 Hadoop构成 Hadoop由4个主要构成部分: 1) 基础核心:提供基础的通用的功能 2) HDFS:分布式存储 3) MapReduce:分布式计算 4) YARN:资源分 ...

  9. 一、Hadoop入门概述

    一.Hadoop是什么 Hadoop是一个由Apche基金会所开发的分布式系统基础架构. 主要解决海量数据的存储和海量数据的分析计算问题. 广义上来说,Hadoop通常是指一个更广泛的概念—Hadoo ...

  10. hadoop入门手册4:Hadoop【2.7.1】初级入门之命令:文件系统shell1

    问题导读1.Hadoop文件系统shell与Linux shell有哪些相似之处?2.如何改变文件所属组?3.如何改变hdfs的文件权限?4.如何查找hdfs文件,并且不区分大小写? 概述文件系统 ( ...

随机推荐

  1. Delphi dll 断点调试

    1.dll 要有一个依托的exe(怎么做 相信用dll了一定知道) 2.选项中的compling中的debugging中的选项,linking中的所有选项 3.最后一个也就是最重要的 run中的par ...

  2. C#汉字转拼音帮助类

    using System; using System.Collections.Generic; using System.Text; using System.Text.RegularExpressi ...

  3. Python学习笔记 之 递归、二维数组顺时针旋转90°、正则表达式

    递归.二维数组顺时针旋转90°.正则表达式 1.   递归算法是一种直接或间接调用自身算法的过程. 特点: 递归就是在过程或函数里调用自身 明确的递归结束条件,即递归出口 简洁,但是不提倡 递归次数多 ...

  4. java高新技术-基本数据类型拆装箱及享元设计模式

    享元设计模式 public static void main(String[] args) { Integer iObj = 3; //自动装箱 System.out.println(iObj + 1 ...

  5. <<< 判断提交方式是get还是post

    if("GET".equals(request.getMethod())){ System.out.println("提交方式是GET"); }else if( ...

  6. 安卓3D游戏-神奇宝贝防御战

    我和同学用unity引擎做的,作为软件工程的大作业. 是一个花费金钱抓怪.控制怪物站位.击杀进攻的敌人获得金钱的类似塔防的安卓游戏. 下载地址:http://pan.baidu.com/s/1gdpH ...

  7. HDOJ 4652 Dice

      期望DP +数学推导 Dice Time Limit: 2000/1000 MS (Java/Others)    Memory Limit: 65536/65536 K (Java/Others ...

  8. PHP错误处理函数set_error_handler()的用法

    定义和用法 set_error_handler() 函数设置用户自定义的错误处理函数. 该函数用于创建运行时期间的用户自己的错误处理方法. 该函数会返回旧的错误处理程序,若失败,则返回 null. 语 ...

  9. JAVA设计模式--单例模式

    单例设计模式 Singleton是一种创建型模式,指某个类采用Singleton模式,则在这个类被创建后,只可能产生一个实例供外部访问,并且提供一个全局的访问点. 核心知识点如下: (1) 将采用单例 ...

  10. 为C#自定义控件添加自定义事件

    这里的自定义控件是由普通控件组合而成的. 希望事件响应代码推迟到使用自定义控件的窗体里写. 步骤一:新建一个用户控件,放两个按钮,Tag分别是btn1,btn2. 这两个按钮的共用单击事件处理代码如下 ...