cloudera learning4:Hadoop集群规划

涉及到一些关于硬件的东西，我也不是很懂，记录下来有待以后学习。

Hadoop集群一般都是由小到大，刚开始可能只有4到6个节点，随着存储数据的增加，计算量的增大，内存需求的增加，集群慢慢变大。

比如按照数据存储量增大集群，每个星期数据存储3TB数据，HDFS的block备份数为3，则集群就需要9TB的磁盘，一般还要再预估25%buffer。如果一台机器的存储量为16*3T，则大概每个月往集群中增加1台机器。

如何进行硬件选择？一般Hadoop节点分成管理节点（master node）和工作节点（work node）。管理节点上跑NameNode,Standby NameNode,ResourceManager，SecondaryNameNode。工作节点上跑DataNode,NodeManager,impala server进程。

work nodes的推荐配置：

中级配置（deep storage, 1Gb Ethernet ）：

– 16 x 3TB SATA II hard drives, in a non-RAID, JBOD* configuraGon – 1 or 2 of the 16 drives for the OS, with RAID-1 mirroring
– 2 x 6-core 2.9GHz CPUs, 15MB cache
– 256GB RAM

– 2x1 Gigabit Ethernet

高级配置（high memory, spindle dense, 10Gb Ethernet ）：

– 24 x 1TB Nearline/MDL SAS hard drives, in a non-RAID, JBOD* configuraGon

– 2 x 6-core 2.9GHz CPUs, 15MB cache – 512GB RAM (or more)
– 1x10 Gigabit Ethernet

Work Node不推荐RAID，不推荐Blade Servers。

master node的推荐配置：

Carrier-class hardware

Dual power supplies

Dual Ethernet cards
– Bonded to provide failover

RAIDed hard drives

Reasonable amount of RAM
– 64 GB for clusters of 20 nodes or less

– 96 GB for clusters of up to 300 nodes

– 128 GB for larger clusters

不推荐部署在虚拟化的主机上，因为虚拟化会带了很多不确定性，比如虚拟的三个server,实际的存储可能在一个物理server上，给hdfs的block备份带来风险。

Network推荐：

Nodes are connected to a top-of-rack switch

Nodes should be connected at a minimum speed of 1Gb/sec

Consider 10Gb/sec connecAons in the following cases:

– Clusters storing very large amounts of data

– Clusters in which typical jobs produce large amounts of intermediate
data

Racks are interconnected via core switches
Core switches should connect to top-of-rack switches at 10Gb/sec or faster

Beware of oversubscripAon in top-of-rack and core switches

Consider bonded Ethernet to miAgate against failure

Consider redundant top-of-rack and core switches

用域名，避免用IP地址，最好配DNS.

OS建议选centos or RedHat Enterprise Linux (RHEL)

磁盘划分越多越好，避免LVM(Logical Volume Manager)，设置noatime。

存储的文件size越大越好。

OS,network,system time, user and group和component版本等等的配置，可以通过Cloudera Manager Host Inspector 进行check。

cloudera learning4:Hadoop集群规划的更多相关文章

cloudera learning5:Hadoop集群高级配置
HDFS-NameNode Tuning: dfs.namenode.handler.count: NameNode可开启的thread number,thread为从NameNode到DataNod ...
cloudera安装hadoop集群和相关服务
一．软件准备: 1.下载cloudera-manager-installer.bin(安装...-server),cdh4.cm(这是...-agent),另外还有些需要的关联软件下步添加. 2.先建 ...
使用Cloudera部署，管理Hadoop集群
Hadoop系列之(三):使用Cloudera部署,管理Hadoop集群 http://www.cnblogs.com/ee900222/p/hadoop_3.html Hadoop系列之(一):Ha ...
Hadoop系列之（三）：使用Cloudera部署，管理Hadoop集群
1. Cloudera介绍 Hadoop是一个开源项目,Cloudera对Hadoop进行了商业化,简化了安装过程,并对hadoop做了一些封装. 根据使用的需要,Hadoop集群要安装很多的组件,一 ...
hadoop集群安装规划
http://mp.weixin.qq.com/s?__biz=MzI5MDYxNjIzOQ==&mid=2247483999&idx=1&sn=016e4c4d0ba7bd9 ...
关于hadoop集群管理系统搭建的规划说明
Hadoop集群管理系统搭建是每个入门级新手都非常头疼的事情,因为你可能花费了很久的时间在搭建运行环境,最终却不知道什么原因无法创建成功.但对新手来说,运行环境搭建不成功的概率还蛮高的. 在之前的分享 ...
Hadoop集群搭建
配置IP,修改主机名,关闭防火墙,配置SSH免密码登录
使用yum安装CDH Hadoop集群
使用yum安装CDH Hadoop集群 2013.04.06 Update: 2014.07.21 添加 lzo 的安装 2014.05.20 修改cdh4为cdh5进行安装. 2014.10.22 ...
yum安装CDH5.5 Hadoop集群
1.环境说明系统环境: 系统环境:centos6.7 Hadoop版本:CDH5.5 JDK运行版本:1.7.0_67 集群各节点组件分配: 2.准备工作安装 Hadoop 集群前先做好下面的准备 ...

随机推荐

spring Quartz多个定时任务的配置
Quartz多个定时任务的配置 1,配置文件与spring整合,需要在spring 的总配置中一入或者在web.xml中spring监听中加上 ztc_cp-spring-quartz.xml 注:定 ...
Gym - 101102C
题目链接 #include <bits/stdc++.h> using namespace std; ; int data[maxn],last[maxn],ans; struct D { ...
Memcache之内存分配机制
可参见:http://blog.csdn.net/hguisu/article/details/7353482
hdu 1501 Zipper
链接:http://acm.hdu.edu.cn/showproblem.php?pid=1501 思路:题目要求第三个串由前两个组成,且顺序不能够打乱,搜索大法好 #include<cstdi ...
c语言中遇到“警告： the `gets' function is dangerous and should not be used.”的解决办法
写于2016年12月1日. 在用c的库函数gets(str)时,编译出现该提示.原因在于linux下gcc不支持gets命令,要换成fgets(arr,size,stdin).
用netbeans和xdebug调试php的配置
xdebug的chrome.firefox插件 chrome:Xdebug helper firefox:easy Xdebug ----------------------------------- ...
2016中国大学生程序设计竞赛网络选拔赛 I This world need more Zhu
This world need more Zhu Time Limit: 12000/6000 MS (Java/Others) Memory Limit: 65536/65536 K (Jav ...
【BZOJ3282】Tree LCT
1A爽,感觉又对指针重怀信心了呢= =,模板题,注意单点修改时splay就好,其实按吾本意是没写的也A了,不过应该加上能更好维护平衡性. ..还是得加上好= = #include <iostre ...
【二分】POJ 2109
谁骗我这是贪心TT 大概就是求k的n次方等于p时的k(k到10^9),由于,p的数据到了10^101,n到200,所以直接算估计T ?? 反正看完想到二分,其实数据要是再大点估计我这个二分不行. 网上 ...
常用SQL脚本操作
SQL 脚本创建数据库.表及简单查询 --------------------------------------------------------------------------------- ...

cloudera learning4:Hadoop集群规划

cloudera learning4:Hadoop集群规划的更多相关文章

随机推荐

热门专题