1,hadoop 2.0 产生背景
2,hadoop 2.0 基本构成
3,HDFS 2.0
4 YARN
5 MapReduce On YARN
6 Hadoop 2.0初体验
7 总结 1,hadoop 2.0产生背景:
两个概念:
hadoop生态系统:由hadoop,hbase,hive,pig,sqoop,flume,mahout,zookeeper等构成。
hadoop:hadoop只是hadoop生态系统的一个组成部分,由分布式文件系统hdfs和分布式计算框架MapReduce组成。hadoop2.0由hdfs,yarn,mr组成
通俗的hadoop是指hadoop生态系统。
hdfs存在的问题:
NameNode单点故障,难以应用于在线场景(不能提供“服务”这样的长期在线,程序一旦挂掉没有备用方案)
NameNode压力过大(所有通信都通过namenode转向其他服务),且内存受限(元数据信息),影响系统扩展性(内存小,hdfs就不能随意加datanode)。
MapReduce存在的问题:
JobTracker单点故障
JobTracker访问压力大,影响系统扩展性
难以支持除Mapreduce之外的计算框架,比如Spark,Storm,Tez(资源调度,和计算在一起的架构不好)等 2 hadoop 2.0基本构成

注解1:MapReduce同时负责资源管理和任务调度,hadoop 2.0将资源管理独立出来成为yarn,mr2.0仅仅是运行在yarn上的框架之一。
Hadoop 2.0由HDFS,Mapreduce和Yarn三个分支构成;
HDFS:NN Federation(分目录管理),HA(多个NameNode)
Mapreduce:运行在yarn上的mr
yarn:资源管理器。 下载地址:http://hadoop.apache.org/releases.html
svn:http://svn.apache.org/repos/asf/hadoop/common/branches/ 这里只有源代码,需编译才可使用 3 HDFS2.0 解决单点故障
通过主备NameNode解决
如果主NameNode发生故障,则切换到备NameNode上。 解决内存受限问题,(含并发过大)
水平扩展,支持多个NameNode
每个NameNode分管一部分目录;(每个namenode管理的文件数减少)
所有NameNode共享所有DataNode存储资源 4 Yarn
Yet Another Resource Negotiator
核心思想:将mrv1中JobTracker的资源管理和任务调度两个功能分开。分别由ResourceManager和ApplicationMaster进程实现。
ResourceManager:负责整个集群的资源管理和调度
ApplicationMaster:负责应用程序相关的事务,比如任务调度,任务监控和容错 Yarn的引入,使得多个计算框架可运行在一个集群中;
:每个应用程序对应一个ApplicationMaster
:目前多个计算框架可以运行在yarn上,比如Mapreduce,spark,storm等 5 Mapreduce on yarn(mrv2)
将Mapreduce作业直接运行在yarn上,而不是由JobTracker和TaskTracker构建在MRv1系统中; 基本功能模块:
yarn:负责资源管理和调度
MRAppMaster:负责任务切分,任务调度,任务监控和容错等
MapTask/ReduceTask:任务驱动引擎,与MRv1一致
每个应用程序对应一个MRAppMaster
单个应用程序运行失败,不会影响其他应用程序。
负责应用程序相关的事情,包括将yarn分配的资源二次分配给内部的任务,任务切分,监控容错等。 HDSF 2.0 HA 架构图

详细解释hdfs 2.0 -ha
1 主备namenode
主namenode对外提供服务,备namenode同步主nn元数据,以待切换
所有datanode同时向两个namenode汇报数据块信息
2 两种切换选择
手动切换:通过命令实现主备之间的切换,可以用于hdfs(namenode升级)升级等场合
自动切换:基于zookeeper实现 (降低运维成本)
3 基于zookeeper切换方案:
zookeeper failover controller(简称zkfc,以后会经常遇到):监控namenode健康状态,并向zookeeper注册namenode
namenode挂掉后,zkfc为namenode竞争锁(竞争锁,zookeeper用语),获得zkfc锁的namenode变为active 多种共享存储系统可供选择:
NFS
奇数个JournalNode构成集群
Bookeeper(这个跟Journal差不多) 推荐Journal Node方案:
基本原理,数据同时写入所有JournalNode,多数写入成功,则认为写成功
一般配置奇数个JournalNode,越多,容错性越好
比如3个JournalNode,只要两个写成功,则数据写成功,最多允许一个JournalNode挂掉。如果是7台电脑,最多允许3台挂掉

下一代hadoop的更多相关文章

  1. [BigData - Hadoop - YARN] YARN:下一代 Hadoop 计算平台

    Apache Hadoop 是最流行的大数据处理工具之一.它多年来被许多公司成功部署在生产中.尽管 Hadoop 被视为可靠的.可扩展的.富有成本效益的解决方案,但大型开发人员社区仍在不断改进它.最终 ...

  2. hadoop生态圈介绍

    原文地址:大数据技术Hadoop入门理论系列之一----hadoop生态圈介绍   1. hadoop 生态概况 Hadoop是一个由Apache基金会所开发的分布式系统基础架构. 用户可以在不了解分 ...

  3. 大数据技术Hadoop入门理论系列之一----hadoop生态圈介绍

    Technorati 标记: hadoop,生态圈,ecosystem,yarn,spark,入门 1. hadoop 生态概况 Hadoop是一个由Apache基金会所开发的分布式系统基础架构. 用 ...

  4. Hadoop版本变迁

    内容来自<Hadoop技术内幕:深入解析YARN架构设计与实现原理>第2章:http://book.51cto.com/art/201312/422022.htm Hadoop版本变迁 当 ...

  5. Hadoop 概述

    Hadoop 是 Apache 基金会下的一个开源分布式计算平台,以 HDFS 分布式文件系统 和 MapReduce 分布式计算框架为核心,为用户提供底层细节透明的分布式基础设施.目前,Hadoop ...

  6. Hadoop发行版本介绍

    前言 从2011年开始,中国进入大数据风起云涌的时代,以Hadoop为代表的家族软件,占据了大数据处理的广阔地盘.开源界及厂商,所有数据软件,无一不向Hadoop靠拢.Hadoop也从小众的高富帅领域 ...

  7. Hadoop、Pig、Hive、Storm、NOSQL 学习资源收集

    (一)hadoop 相关安装部署 1.hadoop在windows cygwin下的部署: http://lib.open-open.com/view/1333428291655 http://blo ...

  8. about云资源汇总指引V1.4:包括hadoop,openstack,nosql,虚拟化

    hadoop资料 云端云计算2G基础课程 (Hadoop简介.安装与范例) 炼数成金3G视频分享下载 虚拟机三种网络模式该如何上网指导此为视频 Hadoop传智播客七天hadoop(3800元)视频, ...

  9. 【原创 Hadoop&Spark 动手实践 4】Hadoop2.7.3 YARN原理与动手实践

    简介 Apache Hadoop 2.0 包含 YARN,它将资源管理和处理组件分开.基于 YARN 的架构不受 MapReduce 约束.本文将介绍 YARN,以及它相对于 Hadoop 中以前的分 ...

随机推荐

  1. [D3] 13. Cleaner D3 code with selection.call()

    selection.call() method in D3 can aid in code organization and flexibility by eliminating the need t ...

  2. android 61 logcat

    package com.itheima.logcat; import android.os.Bundle; import android.app.Activity; import android.ut ...

  3. JavaRTS-DTraceProvider

    https://docs.oracle.com/javase/realtime/doc_2.0_u1/release/JavaRTSDTraceProvider.html

  4. C#_ 项目打包附加数据库

    C#_ 项目打包附加数据库 2010-07-11 23:22:45|  分类: Winfrom|举报|字号 订阅     实现效果:安装项目时直接附加数据库. 1.首先在需要部 署的项目的解决方案资源 ...

  5. epoll使用实例说明

    之前一直在讲如何epoll如何好用,但是并没有实例来演示epoll的使用,下面我们就看一个服务器端使用epoll监听大量并发链接的例子. 首先看一下epoll的几个函数的介绍.1.epoll_crea ...

  6. 基于HTML5的SLG游戏开发( 三):认识PureMVC

    在游戏开发中,对于一般网络游戏,由于需要多人协同开发,每个人负责不同的模块开发,为了减少耦合,需要用来一些MVC框架,减少模块之间的耦合.我们现在使用的mvc框架是pureMVC.pureMVC的官网 ...

  7. 实现RecycleView动态使列表item可以点击或不可点击切换

    效果 这里讲的是第二个button跳转的Activity,这里和上一篇不同之处在于可以item点击.item子控件点击 继承BaseAdapter 同样也要继承BaseAdapter public c ...

  8. Chapter 5. The Gradle Wrapper 关于gradle wrapper

    Most tools require installation on your computer before you can use them. If the installation is eas ...

  9. boost.log要点笔记

    span.kw { color: #007020; font-weight: bold; } code > span.dt { color: #902000; } code > span. ...

  10. 第二篇:web之前端之css

    前端之css   前端之css 本节内容 css概述及引入 css选择器 css常用属性 1.css概述及引入 CSS概述 CSS是Cascading Style Sheets的简称,中文称为层叠样式 ...