Hadoop on Docker

　　最初接触Docker是在2013年初，当时Docker才刚起步不久，知之甚少。在不到一年的时间里，Docker已经家喻户晓，成为时下最热门的云计算技术之一，出现了许多围绕docker的新兴产品（仅供参考）：

Flynn：一个使用go语言编写的开源PaaS平台，目标是简化分布式环境中应用的部署和维护，可以通过git push命令，将应用部署到Docker，从而省去复杂的配置和操作。
CoreOS：一种新的架构体系重新设计的Linux发型版，可以运行在既有的硬件活着云服务器上。CoreOS不提供类似yum或apt的包管理工具，用户不需要在CoreOS中安装软件，而是让程序都在Docker容器中运行。
Fig：是一个基于Docker的用于快速搭建开发环境的工具，目前Fig团队已经加入Docker公司。
Kubernets：来自Google的容器集群管理工具，支持跨平台。目前已经得到微软，IBM，红帽，CoreOS等公司的支持。
Boot2Docker：专为Docker设计的轻量级Linux发型包，解决Windows或OS X用户不能安装Docker的问题。

　　什么是Docker。Docker是一个开源的引擎，可以轻松的为任何应用创建一个轻量级的、可移植的、相互隔离的容器。开发者在笔记本上编译测试通过的容器可以批量地在生产环境中部署，包括VMs（虚拟机）、OpenStack 集群和其他的基础应用平台。

　　Docker应用场景：

web应用的自动化打包和发布。
自动化测试和持续集成，发布。
在服务型环境中部署和调整数据库或其他的后台应用。
从头编译或者扩展现有的OpenShift或Cloud Foundry平台来搭建自己的PaaS环境等。

本文主要介绍docker在大数据方面的应用，经过一段时间的研究和实际操作，提出了Hadoop on Docker架构。大概思路就是将硬件（或云服务器）通过Docker搭建成为一个“超级服务器”，这里的超级是指，拥有足够的CPU，内存，并且提供7*24小时不宕机服务（除非同一时间所有物理主机全宕机）。每个Docker容器作为超级服务器资源的一个实例，可以根据需求动态增加实例，以满足计算性能要求。下图是整个Hadoop on Docker的架构

从上自下，依次为：

Zookeeper：协调集群中物理主机之间的同步，包括维护一张每个服务器上运行着的容器名单，所有服务器上Docker容器的ip域名映射表（动态更新），Docker容器配置。
Server：上面运行着很多docker容器，每个容器运行着特定功能的服务。把应用打包到容器中运行的好处是，应用间是相互隔离的，一个容器宕掉不会影响主机上及其他容器，并且在创建容器的时候可以定制不同的资源（CPU，内存等）。
FS：外部文件系统有两个作用：

　　　　　　1. 将datanode容器挂载到外部文件存储系统中，可以通过增加外部文件系统的磁盘大小来提高hdfs存储能力。

　　　　　　2. 将所有配置文件存放在公共文件系统中，可以方便整个系统的配置管理，减少重复操作。

Yarn：资源管理系统，最终的目标是可以将不同的集群容器（storm，spark等）放在同一个yarn系统中，通过yarn的调度来为不同集群分配不同资源。

有人会有疑问：如今服务器已经很廉价，完全可以在不同服务器上运行不同服务，没必要使用docker。

如果硬件服务器对你来说确实是廉价的，以至于搭建100个节点的hadoop集群，大多数情况下运行mapreduce job的节点书不超过10个，剩余90台服务器常年处于休息状态，对你来说也无关紧要的话，我无话可说。抛开硬件成本不说，docker容器的隔离机制也是集群部署中的一大亮点！

本文的目的是通过docker容器，使用更少的硬件资源来运行同样的job，容器相对于服务器来说是更细粒度的资源。同时由于容器的隔离机制，一个容器发生故障并不影响到其他容器及宿主主机。此外这种架构还解决了单点故障问题，每台服务器运行着相同的docker镜像，通过定时向zookeeper发送心跳，来监控所有容器的健康状态，心跳是一份包含该服务器上所有运行着的容器的名单。那么有可能发生两种突发情况：

docker容器挂掉
宿主主机宕机

对于第一种情况，由于心跳包含所有运行着容器的名单，当服务器某个容器挂掉，比如mysql意外终止，zookeeper通过两次心跳对比，发现缺少mysql，于是启动应急措施，重启该服务器的mysql容器。如果宿主主机宕机，zookeeper在一段时间内未接受该服务器的心跳，发现宕机，然后在其余剩下的服务器中重启上一次心跳名单中运行着的容器，如图所示

整个系统的实现还有一个前提，就是使不同宿主主机上的docker容器能够通信，可以参见这篇。

最终的目的是使整个架构看起来像在一台超级服务器（cpu，内存足够大，并且永不宕机）上运行hadoop。

本文持续更新。。。

Hadoop on Docker的更多相关文章

Windows server 2016 支持容器 ,安装docker 搭建Ubuntu+hadoop （docker为服务器）
一.Windows server 2016 是肯定要安装的, 关于如何启动容器功能那就是控制面板中增加与删除里面的启用了,很多地方可以百度到二. 安装Ubuntu hadoop 等待续注意: ...
Hadoop的Docker镜像构建
1.Dockerfile ###Dockerfile -- beagin FROM ubuntu:trusty #MAINTAINER The Hue Team "https://githu ...
基于Docker快速搭建多节点Hadoop集群--已验证
Docker最核心的特性之一,就是能够将任何应用包括Hadoop打包到Docker镜像中.这篇教程介绍了利用Docker在单机上快速搭建多节点 Hadoop集群的详细步骤.作者在发现目前的Hadoop ...
docker安装hadoop
docker为hadoop的云化带来了极大便利,安装和应用也会更快更方便.进入正题: docker search hadoop 将会看到如下结果: INDEX NAME DESCRIPTION STA ...
使用Docker在本地搭建Hadoop分布式集群
学习Hadoop集群环境搭建是Hadoop入门必经之路.搭建分布式集群通常有两个办法: 要么找多台机器来部署(常常找不到机器) 或者在本地开多个虚拟机(开销很大,对宿主机器性能要求高,光是安装多个虚拟 ...
基于Docker一键部署大规模Hadoop集群及设计思路
一.背景: 随着互联网的发展.互联网用户的增加,互联网中的数据也急剧膨胀.每天产生的数据量数以万计,本地文件系统和单机CPU已无法满足存储和计算要求.Hadoop分布式文件系统(HDFS)是海量数据存 ...
Docker 构建Hadoop环境
参考如下文章: Docker安装Hadoop Docker在本地搭建Hadoop分布式集群 Docker快速搭建Hadoop测试环境从0开始用docker搭建 hadoop分布式环境 Docker- ...
Docker生态不会重蹈Hadoop的覆辙
本文原作者是晏东(精灵云Ghostcould创始人),在读到<Docker生态会重蹈Hadoop的覆辙吗?>文章后的个人思考,里面的不少观点也是很不错的. 1.形态上的差异 2013年的时 ...
Docker生态会重蹈Hadoop的覆辙吗?
从网上找到了这篇2016年中旬刷爆朋友圈的文章,没有找到作者和首发出处.两年多过去了,文中分析的很多不确定性都有了结论,里面不少分析思路.观点还是很不错的. Docker的兴起和Hadoop何其相似 ...

随机推荐

cin判断读取结束 C++语言
cin是C++的输入流,可以通过>>进行读取. 判断读取结束,一般有两种方法,具体取决于与输入的约定. 1 以特殊值结尾. 如输入整数,以-1结束,那么当读到-1的时候,就确定读取结束了. ...
第九十八天请假 PHP TP框架空操作和命名空间
访问空方法解决办法->在控制器里面创建 _empty 方法 <?php namespace Home\Controller; use Think\Controller; class Ind ...
iOS nib file owner
nib文件中的file owner属性,设定后app在运行时加载nib文件的过程中会通过file owner重新建立nib文件中描述的控件与其在file owner中对应的IBOutlet或IBAct ...
RMQ（范围最值问题）算法学习
RMQ算法适合求解对一个数组多次查询给定范围内的最值. 预处理操作: 令d[i,j]表示从i开始,长度为2^j的一段元素的最值,可以用递推公式写出d[i,j] = min{ d[i][j-1], d[ ...
红星美凯龙CEO车建新的圆融和霸气
待人接物中车建新有许多习惯,与别人一起行走时,走在靠马路的一边:吃饭时最好的菜留给客人.他说,做人往往就在细节中,别小看一个举动,无意中就会感染别人.和别人在一起,你要时时刻刻先考虑对方. 细节上体察 ...
js中this对象,call,apply
js判断图片是否加载成功
<!DOCTYPE html> <html lang="en"> <head> <meta charset="UTF-8&quo ...
ASP.NET ZERO 学习 JTable的ChildTable用法
效果图: Jtable的子表用法: _$masterTable.jtable({ title: app.localize('PharmacyInventory'), openChildAsAccord ...
linux--杂记(rework)
1.The mind behind Linux https://www.ted.com/talks/linus_torvalds_the_mind_behind_linux 2.Emacs ORG-M ...
Java swing项目-图书管理系统(swing+mysql+jdbc)
(一)项目功能分析该项目是设计一个图书管理系统,主要包含的内容有: (1)管理员登陆界面 ->信息录入 ->登录 ->重置 (2)图书管理系统总界面 ->子界面菜单: 1)图 ...

Hadoop on Docker

Hadoop on Docker的更多相关文章

随机推荐

热门专题