Hadoop2.0/YARN深入浅出(Hadoop2.0、Spark、Storm和Tez)

随着云计算、大数据迅速发展，亟需用hadoop解决大数据量高并发访问的瓶颈。谷歌、淘宝、百度、京东
等底层都应用hadoop。越来越多的企业急需引入hadoop技术人才。由于掌握Hadoop技术
的开发人员并不多，直接导致了这几年hadoop技术的薪水远高于JavaEE及 Android程序员。

Hadoop入门薪资已经达到了 8K 以上，工作1年可达到 1.2W 以上，具有2-3年工作经验的hadoop人才年薪可以达到 30万—50万。

一般需要大数据处理的公司基本上都是大公司，所以学习hadoop技术也是进大公司的捷径！

中关村被称为中国硅谷，这里有着一群被外界称之为程序员的IT从业者。

但是一眼望去，大多数一线程序员的年龄均在20至30岁左右，40、50岁的人在这个行业内颇为罕见。

为什么在国内没有“老”程序员，而在国外五六十岁仍奋斗在一线岗位的程序员比比皆是？造成这种现象的原因是多方面的。

新 Hadoop Yarn 框架原理及运作机制

从业界使用分布式系统的变化趋势和 hadoop 框架的长远发展来看，MapReduce 的 JobTracker/TaskTracker 机制需要大规模的调整来修复它在可扩展性，内存消耗，线程模型，可靠性和性能上的缺陷。在过去的几年中，hadoop 开发团队做了一些 bug 的修复，但是最近这些修复的成本越来越高，这表明对原框架做出改变的难度越来越大。

为从根本上解决旧 MapReduce 框架的性能瓶颈，促进 Hadoop 框架的更长远发展，从 0.23.0 版本开始，Hadoop 的 MapReduce 框架完全重构，发生了根本的变化。新的 Hadoop MapReduce 框架命名为 MapReduceV2 或者叫 Yarn，其架构图如下图所示：

成熟、通用让Hadoop深得大数据玩家喜爱，即使是在YARN出现之前，在流处理框架林立下，Hadoop仍然被众多机构广泛运用在离线处理之上。借鉴于Mesos，MapReduce获得新生，YARN提供了更加优秀的资源管理器，让Storm等流处理框架同样可以运行在Hadoop集群之上；但是别忘记，Hadoop有着远比Mesos成熟的社区。从兴起到唱衰再到兴起，这头搬运大数据的大象已更加成熟、稳重，同时我们也相信，在未来container等属性加入后，Hadoop生态系统必将发扬光大。

课程介绍

本课程详细讲解了Hadoop 2.0架构、部署以及YARN，并讲解了运行在YARN上主要的计算框架，包括Spark、Storm和Tez

课程针对人群

1、本课程适合于有一定java基础知识，对数据库和sql语句有一定了解，熟练使用linux系统的技术人员，特别适合于想换工作或寻求高薪职业的人士

2、最好有Greenplum Hadoop大数据基础，学习过北风课程《Greenplum 分布式数据库开发入门到精通》、《全面深入Greenplum Hadoop大数据分析平台》为最佳

课程大纲

Hadoop 2.0（6课时）

Hadoop 2.0产生背景

Hadoop 2.0基本构成

HDFS 2.0

MapReduce 2.0

Hadoop 2.0安装配置

集群测试

YARN资源管理系统（4课时）

YARN产生背景

YARN基本设计思想

YARN基本架构

YARN工作流程

YARN通信协议

YARN容错

YARN资源调度机制

YARN支持的计算框架（Storm，Tez，Spark）（11课时）

以YARN为核心的生态系统

Storm基本概念

Storm流式计算框架

基于YARN的Storm架构

YARN-Storm部署

Storm On YARN服务

Apache Tez介绍

Tez特点

Tez数据处理引擎

DAGAppMaster实现

Tez优化机制

Tez应用场景

Tez部署

什么是Spark

Spark生态系统

Spark的核心--RDD和Lineage

RDD的存储、容错机制、内部设计及数据模型

Spark调度框架

Spark的分布式部署方式

基于Mesos的Spark模式

基于YARN的Spark模式

Spark的独立模式部署

Spark的YARN模式部署

Hadoop2.0/YARN深入浅出(Hadoop2.0、Spark、Storm和Tez)的更多相关文章

Hadoop2.2.0(yarn)编译部署手册
Created on 2014-3-30URL : http://www.cnblogs.com/zhxfl/p/3633919.html @author: zhxfl Hadoop-2.2编译 ...
基于Hadoop2.0、YARN技术的大数据高阶应用实战(Hadoop2.0\YARN\Ma
Hadoop的前景随着云计算.大数据迅速发展,亟需用hadoop解决大数据量高并发访问的瓶颈.谷歌.淘宝.百度.京东等底层都应用hadoop.越来越多的企业急需引入hadoop技术人才.由于掌握H ...
hadoop2.7.3+spark2.1.0+scala2.12.1环境搭建（4）SPARK 安装
hadoop2.7.3+spark2.1.0+scala2.12.1环境搭建(4)SPARK 安装一.依赖文件安装 1.1 JDK 参见博文:http://www.cnblogs.com/liugh ...
Kafka：ZK+Kafka+Spark Streaming集群环境搭建（四）针对hadoop2.9.0启动执行start-all.sh出现异常：failed to launch: nice -n 0 /bin/spark-class org.apache.spark.deploy.worker.Worker
启动问题: 执行start-all.sh出现以下异常信息: failed to launch: nice -n 0 /bin/spark-class org.apache.spark.deploy.w ...
Spark记录-源码编译spark2.2.0（结合Hive on Spark/Hive on MR2/Spark on Yarn）
#spark2.2.0源码编译 #组件:mvn-3.3.9 jdk-1.8 #wget http://mirror.bit.edu.cn/apache/spark/spark-2.2.0/spark- ...
在centos7上安装部署hadoop2.7.3和spark2.0.0
一.安装装备下载安装包: vmware workstations pro 12 三台centos7.1 mini 虚拟机网络配置NAT网络如下: 二.创建hadoop用户和hadoop用户组 1. ...
hadoop-2.6.0.tar.gz + hive-1.0.0.tar.gz + pig-0.15.0.tar.gz的安装
这里,为什么选择用hadoop-2.6.0.tar.gz + hive-1.0.0.tar.gz是为了搭配兼容. hadoop-2.6.0.tar.gz + hive-1.0.0.tar. ...
Hadoop2.7.5+Hbase1.4.0完全分布式
Hadoop2.7.5+Hbase1.4.0完全分布式一.在介绍完全分布式之前先给初学者推荐两本书:<Hbase权威指南>偏理论<Hbase实战>实战多一些二.在安装完全分布 ...
ASP.NET MVC深入浅出系列(持续更新) ORM系列之Entity FrameWork详解（持续更新）第十六节：语法总结(3)(C#6.0和C#7.0新语法) 第三节：深度剖析各类数据结构(Array、List、Queue、Stack)及线程安全问题和yeild关键字各种通讯连接方式设计模式篇第十二节: 总结Quartz.Net几种部署模式(IIS、Exe、服务部署【借
ASP.NET MVC深入浅出系列(持续更新) 一. ASP.NET体系从事.Net开发以来,最先接触的Web开发框架是Asp.Net WebForm,该框架高度封装,为了隐藏Http的无状态模 ...

随机推荐

tomcat 系统服务 outofmemory
TOMCAT内存溢出outofmemory的问题: http://hi.baidu.com/mefeng47/item/3b247af74ce4e24e922af2e5 注:双击tomcat6w.ex ...
Apple Watch程序开发30分钟秒懂
苹果公司Apple Watch智能手表正在备受追捧,迅速掌握Apple Watch的APP架构,环境搭建,及实例开发将会让开发者占尽先机.我赢职场全国首发,30分钟玩转Apple Watch应用开发实 ...
计算闰年_winform
新建窗体应用程序(如下),新建控件label1,label2,label3,textBOX1,button1,button2 label1的Text属性改为“计算闰年演示” label2的Text属性 ...
【转载】Java重构示例【1】
序言本文通过Java示例代码片段展示了常用重构原则和技巧,供初级开发人员参考.精致的代码能够清楚传达作者的意图,精致的代码是最好的注释,精致的代码非常容易维护和扩展.程序员阅读精致的代码如同大众欣赏 ...
git阶段学习总结
学习git大约有两个星期了,脑子里总算有点干货了,可以拿出来总结一下: git,用于版本控制的,刚开始觉得它是linux下默认的命令,其实也是个工具需要apt-get install git 安装一下 ...
UVa401 Palindromes
#include <stdio.h>#include <string.h> char mirror(char c){ static const char m[] = &q ...
JNI之HelloWorld
什么是JNI? JNI java本地开发接口 JNI 是一个协议这个协议用来沟通java代码和外部的本地代码(c/c++). 通过这个协议,java代码就可以调用外部的c/c++代码外部的c/c+ ...
Cin、Cout 加快效率方法
std::ios::sync_with_stdio(false); 在main 函数中加上这么一句话. 可以打消iostream的输入输出缓存,可以节省许多时间,使效率与scanf与printf相差无 ...
JProtector java应用加密工具
JProtector 专业的java项目加密工具 JProtector简介: JProtector 专业的java项目加密工具.目前java开发的项目发布的时候需要将项目发布到用户手中,但由于一 ...
转：MySql的commit和rollback
从功能上划分,SQL 语言可以分为DDL,DML和DCL三大类.1. DDL(Data Definition Language) 数据定义语言,用于定义和管理 SQL 数据库中的所有对象的语言 ...

Hadoop2.0/YARN深入浅出(Hadoop2.0、Spark、Storm和Tez)

Hadoop2.0/YARN深入浅出(Hadoop2.0、Spark、Storm和Tez)的更多相关文章

随机推荐

热门专题