简介:

Cloudera Manager 是 Cloudera 公司推出的 Hadoop 集群管理工具,通过该管理工具可以方便的部署、配置、监控集群。

Cloudera 公司自己发布的 Hadoop 版本叫 CDH,全称 Cloudera Distribution Hadoop。

环境介绍:

192.168.47.10 master.hadoop C6.8 x64 CPU: 1 MEM: 4GB
192.168.47.20 datanode01.hadoop C6.8 x64 CPU: 1 MEM: 1GB
192.168.47.30 datanode02.hadoop C6.8 x64 CPU: 1 MEM: 1GB

一、服务器初始化

1、配置 hostname 、修改 hosts

2、关闭 iptables 、selinux

3、配置时间同步服务器 ntp

# master.hadoop 、datanode.hadoop

  1. shell > cp -r /usr/share/zoneinfo/Asia/Shanghai /etc/localtime # 修改时区
  2.  
  3. shell > yum -y install ntp

# master.hadoop

  1. shell > vim /etc/ntp.conf
  2.  
  3. # 允许客户端来同步时间的网段
  4. restrict 192.168.47.0 mask 255.255.255.0 nomodify
  5. # 该服务器从哪里同步时间
  6. server cn.pool.ntp.org prefer
  7. # 当无法与上游服务器联系时,采用本地时钟
  8. server 127.127.1.0
  9. fudge 127.127.1.0 stratum
  10.  
  11. shell > chkconfig --del ntpd
  12. shell > echo 'ntpdate cn.pool.ntp.org | hwclock -w' >> /etc/rc.local
  13. shell > echo '/etc/init.d/ntpd start' >> /etc/rc.local
  14.  
  15. shell > ntpdate cn.pool.ntp.org | hwclock -w
  16. shell > /etc/init.d/ntpd start
  17.  
  18. shell > ntpstat
  19. synchronised to local net at stratum
  20. time correct to within ms
  21. polling server every s
  22.  
  23. # 现在是以本地时钟为主,因为还没有跟上游服务器建立连接,一般需要 分左右!
  24.  
  25. shell > ntpq -p
  26. remote refid st t when poll reach delay offset jitter
  27. ==============================================================================
  28. 248.51--. .INIT. u - 0.000 0.000 0.000
  29. *LOCAL() .LOCL. l 0.000 0.000 0.000

# datanode.hadoop

  1. shell > crontab -e
  2. * * * /usr/sbin/ntpdate master.hadoop | hwclock -w > /dev/null >&
  3.  
  4. # 凌晨时间同步 ( 本来想采用 ntp 的方式,但是启动时间真是太长了 )

二、安装 Cloudera-manager

# https://www.cloudera.com/documentation/enterprise/release-notes/topics/cm_vd.html 各版本地址
# https://archive.cloudera.com/cm5/redhat/6/x86_64/cm/5.6.0/RPMS/x86_64 本次实验版本地址

# master.hadoop

1、搭建 yum 本地源

  1. shell > yum -y install httpd createrepo
  2.  
  3. shell > sed -i 's/#ServerName www.example.com:80/ServerName 127.0.0.1:80/' /etc/httpd/conf/httpd.conf
  4.  
  5. shell > /etc/init.d/httpd start
  6. shell > chkconfig --level httpd on
  7.  
  8. shell > mkdir /var/www/html/clouder-manager; cd /var/www/html/clouder-manager
  9. shell > wget -c -r -nd -A .rpm https://archive.cloudera.com/cm5/redhat/6/x86_64/cm/5.6.0/RPMS/x86_64/ # 建议使用加速下载
  10.  
  11. shell > ls -
  12. cloudera-manager-agent-5.6.-.cm560.p0..el6.x86_64.rpm
  13. cloudera-manager-daemons-5.6.-.cm560.p0..el6.x86_64.rpm
  14. cloudera-manager-server-5.6.-.cm560.p0..el6.x86_64.rpm
  15. cloudera-manager-server-db--5.6.-.cm560.p0..el6.x86_64.rpm
  16. enterprise-debuginfo-5.6.-.cm560.p0..el6.x86_64.rpm
  17. jdk-8u111-linux-x64.rpm
  18.  
  19. # 关于 clouder-manager 的软件包就这些,jdk 是我单独下载的
  20.  
  21. shell > createrepo . # 生成依赖

# master.hadoop 、datanode.hadoop

  1. shell > vim /etc/yum.repos.d/local.repo
  2. [local]
  3. name=local cloudera manager
  4. baseurl=http://master.hadoop/cloudera-manager
  5. gpgcheck=
  6.  
  7. shell > yum clean all
  8.  
  9. # 这样各节点就可以使用 yum 本地源了

2、安装 clouder-manager

# master.hadoop

  1. shell > yum -y install jdk1..0_111
  2. shell > yum -y install cloudera-manager-agent
  3. shell > yum -y install cloudera-manager-server-db-
  4.  
  5. shell > rpm -qa | grep cloudera
  6. cloudera-manager-server-db--5.6.-.cm560.p0..el6.x86_64
  7. cloudera-manager-agent-5.6.-.cm560.p0..el6.x86_64
  8. cloudera-manager-server-5.6.-.cm560.p0..el6.x86_64
  9. cloudera-manager-daemons-5.6.-.cm560.p0..el6.x86_64
  10.  
  11. # 可以看到都已准备就绪 ( cloudera-manager-server 已经自动安装了 )

# datanode.hadoop

  1. shell > yum -y install jdk1..0_111
  2. shell > yum -y install cloudera-manager-agent

3、启动

# master.hadoop

  1. shell > /etc/init.d/cloudera-manager-server-db start # TCP
  2.  
  3. shell > /etc/init.d/cloudera-scm-server start # TCP web、 agent
  4.  
  5. # cloudera-manager-server 启动要花费比较长的时间
  6. # 建议 tail -f /var/log/cloudera-manager-server/cloudera-manager-server.log
  7. # 看到 Started SelectChannelConnector@0.0.0.0: 字样时,证明启动成功
  8.  
  9. shell > /etc/init.d/cloudera-scm-agent start # TCP 、

# datanode.hadoop

  1. shell > sed -i '/server_host/s/localhost/master.hadoop/' /etc/cloudera-scm-agent/config.ini # 修改 CM 地址
  2.  
  3. shell > /etc/init.d/cloudera-scm-agent start

4、访问

http://192.168.47.10:7180 admin / admin

> Yes, I accept the End User License Terms and Conditions. # 同意
> 默认,企业试用版,60 天后自动降级为免费版

# 到这里,cloudera-manager 就安装完成了,可以点击左上角logo查看状态,也可以继续配置集群
# 再点击继续就开始配置集群了,请看下面

三、Cloudera-manager 配置集群

# 这里使用的离线的安装方式,建议使用迅雷等加速器下载后传到服务器,不然太费劲了...

  1. shell > cd /opt/cloudera/parcel-repo
  2. shell > wget -c http://archive.cloudera.com/cdh5/parcels/5.6.0/CDH-5.6.0-1.cdh5.6.0.p0.45-el6.parcel
  3. shell > wget -c http://archive.cloudera.com/cdh5/parcels/5.6.0/CDH-5.6.0-1.cdh5.6.0.p0.45-el6.parcel.sha1
  4. shell > wget -c http://archive.cloudera.com/cdh5/parcels/5.6.0/manifest.json
  5.  
  6. # el6 可以理解为 CentOS .x
  7.  
  8. shell > mv CDH-5.6.-.cdh5.6.0.p0.-el6.parcel.sha1 CDH-5.6.-.cdh5.6.0.p0.-el6.parcel.sha
  9.  
  10. # 不改名,会导致 CM 去重新下载 .parcel 包,就那个 .4G 的包
  11.  
  12. shell > ls -
  13. CDH-5.6.-.cdh5.6.0.p0.-el6.parcel
  14. CDH-5.6.-.cdh5.6.0.p0.-el6.parcel.sha
  15. manifest.json
  16.  
  17. # 最终就是这样
  18.  
  19. shell > chown -R cloudera-scm.cloudera-scm .
  20. shell > /etc/init.d/cloudera-manager-server restart
  21.  
  22. # 如果是在 server 启动后,下载的 CDH,那么需要重启一下 server,否则选择 CDH 版本的时候,没有该版本

1、主页点击添加集群

2、搜索主机,继续

3、选择使用 parcel ( clouder 公司提供的一种包管理方式 );也可以把 CDH5 对应的软件包全部下载后做成本地 yum 源,选择使用数据包

# 更多选项里面有一个<本地 Parcel 存储库路径>,默认就是 /opt/cloudera/parcel-repo
# 下面的选择CDH版本列表就会有下载的 CDH-5.6.0-1.cdh5.6.0.p0.45,选择 继续

4、集群安装,因为是下载好的本地包,所以需要等待的只是一个安装时间,由服务器性能决定 ( 这虚拟机让我等的好苦!)

# 可以监控 cloudera-manager-server 的日志,好多 orld gc ,内存严重不足!机器反应慢!负载也高!

5、检查主机正确性

> vm.swappiness 默认 60,建议设为 0,系统使用 swap 的喜好,0 为尽量不使用
> /sys/kernel/mm/transparent_hugepage 透明大页的问题,建议禁止

# master.hadoop 、datanode01.hadoop

  1. shell > echo 'vm.swappiness = 0' >> /etc/sysctl.conf
  2. shell > sysctl -p
  3.  
  4. shell > echo never > /sys/kernel/mm/redhat_transparent_hugepage/defrag
  5. shell > echo 'echo never > /sys/kernel/mm/redhat_transparent_hugepage/defrag' >> /etc/rc.local

# 点击重新运行

6、安装服务,自定义服务,我这里只选择了 HDFS、YARN

7、角色分配,选择默认

8、数据库选择,选择嵌入式数据库,测试连接

# master.hadoop:7432
# rman / rman / MJ8ehj6PGN | 数据库 / 用户名 / 密码

9、集群设置,这里是一些常用参数,多关注一下

# dfs.block.size, dfs.blocksize HDFS 默认块大小 128MB
# dfs.datanode.failed.volumes.tolerated DataNode 磁盘损坏数量,建议大于 1
# dfs.data.dir, dfs.datanode.data.dir DataNode 数据目录
# dfs.name.dir, dfs.namenode.name.dir NameNode 数据目录
......

10、开始启动服务啦~

# 有可能会因为服务器性能不足,导致超时,重试一般能好!该增加配置了... 主要是 Memory !!!

11、恭喜您!服务已安装、配置并在群集中运行。

四、集群调整

# 集群主页可以看到 Cluster 1 状态为 红色 !表示运行状态不良、主机状态为 黄色!表示存在隐患!等

# 这时服务器很卡,点击主机 配置问题,会发现 master.hadoop、datanode01.hadoop 内存不足!-> 关机加内存

# 关闭 Cluster 1、Cloudera Manager Service ( 标签后面都有下拉菜单,点击停止 ),然后加内存!建议 8G/2G !

# 再次启动服务器、等待 Cloudera-manager-server 启动后,web 界面启动 Cluster 1、Cloudera Manager Service

# 点击<所有运行状态问题>,列出 Cluster 1 运行中的问题列表

1、Cloudera Management Services

  1. > Alert Publisher (master) /var/log/cloudera-scm-alertpublisher
  2. > Event Server (master) /var/log/cloudera-scm-eventserver
  3. > Host Monitor (master) /var/log/cloudera-scm-firehose
  4. > Reports Manager (master) /var/log/cloudera-scm-headlamp
  5. > Service Monitor (master) /var/log/cloudera-scm-firehose

# 分析发现:全部是由于磁盘空间不足,这种问题一般生产坏境不会出现!
# 解决方法:1、磁盘扩容 2、修改日志目录可用空间监控绝对阈值 ( 由于是实验环境,这里选择第二种解决方案 )
# 主页->配置->磁盘空间阈值->筛选器 范围 Cloudera Management Service->日志目录可用空间监控绝对阈值->警告 2 严重 1->保存更改
# 这时再点击主页,之前这些警告就都消失了 ( 可能会有一点延迟 )

  1. > Event Server (master) /var/lib/cloudera-scm-eventserver
  2. > Host Monitor (master) /var/lib/cloudera-host-monitor
  3. > Reports Manager (master) /var/lib/cloudera-scm-headlamp
  4. > Service Monitor (master) /var/lib/cloudera-service-monitor

# 还是熟悉的味道!
# Event Server Index Directory 可用空间监控绝对阈值 2 1
# Host Monitor Storage Directory 可用空间监控绝对阈值 2 1
# Reports Manager Working Directory 可用空间监控绝对阈值 2 1
# Service Monitor Storage Directory 可用空间监控绝对阈值 2 1

2、Cluster 1

> HDFS 副本不足的块

# HDFS 默认为 3 个副本,我们只有一个

  1. > YARN (MR2 Included)
  2. > NameNode (master) /dfs/nn
  3. > SecondaryNameNode (master) /dfs/snn
  4. > master.hadoop /opt/cloudera/parcels

# 还是磁盘空间问题,这次选择添加硬盘来解决问题 ( 当然也可以修改监控阈值 )

# master.hadoop、datanode01.hadoop

  1. shell > mkfs.ext4 /dev/sdb
  2. shell > mkdir tmp; mv /dfs/* tmp/
  3. shell > mount -o noatime /dev/sdb /dfs
  4. shell > mv tmp/* /dfs
  5. shell > echo '/dev/sdb /dfs ext4 noatime 0 0' >> /etc/fstab
  6.  
  7. shell > mkfs.ext4 /dev/sdc
  8. shell > mv /opt/* tmp/
  9. shell > mount -o noatime /dev/sdc /opt
  10. shell > mv tmp/* /opt
  11. shell > echo '/dev/sdc /opt ext4 noatime 0 0' >> /etc/fstab
  12.  
  13. shell > mount -a

# 启动集群即可

五、向集群中添加节点

# 准备好的服务器,也要经过初始化阶段!( 还有内核参数 ) ( jdk、agent 都可以不用装,也可以先安装好 )

1、主机->模板->修改默认模板名称为 DataNode,应用该模板的主机将包含两个角色 DataNode、NodeManager

2、状态->向集群添加新主机

3、搜索主机 192.168.47.30 或 datanode02.hadoop ( 当前管理的主机中如有该主机直接勾选继续 )

4、安装软件到该主机、检查主机正确性

5、选择主机模板 DataNode 继续,安装、启动服务

6、YARN (MR2 Included) 刷新集群配置

# 完成

Cloudera Manger CDH 安装文档的更多相关文章

  1. _00024 尼娜抹微笑伊拉克_云计算ClouderaManager以及CHD5.1.0群集部署安装文档V1.0

    笔者博文:妳那伊抹微笑 itdog8 地址链接 : http://www.itdog8.com(个人链接) 博客地址:http://blog.csdn.net/u012185296 博文标题:_000 ...

  2. ORACLE LINUX 6.3 + ORACLE 11.2.0.3 RAC + VBOX安装文档

    ORACLE LINUX 6.3 + ORACLE 11.2.0.3 RAC + VBOX安装文档 2015-10-21 12:51 525人阅读 评论(0) 收藏 举报  分类: Oracle RA ...

  3. Oracle 11g 单实例安装文档

    这里介绍在Red Hat Enterprise Linux Server release 5.7 (Tikanga)下安装ORACLE 11.2.0.1.0的过程,本文仅仅是为了写这样安装指导文档而整 ...

  4. linkedin开源的kafka-monitor安装文档

    linkedin开源的kafka-monitor安装文档 linkedin 开源的kafka-monitor的安装使用可以参考官方的readme:流程介绍的已经比较清楚,但是还是有一些地方需要修正.让 ...

  5. oracle database 12c R1 安装文档

    INSTALLORACLE DATABASE 12C 完整的安装文档下载地址: http://download.csdn.net/detail/royjj/5665869 OS:ORALCE LINU ...

  6. HAProxy安装文档

    HAProxy安装文档 [toc][TOC] 一.环境说明 系统环境:CentOS Linux release 7.2.1511 (Core) 系统内核:3.10.0-327.el7.x86_64 软 ...

  7. Oracle 12c RAC 静默安装文档

    参考文档: https://docs.oracle.com/en/database/oracle/oracle-database/12.2/cwlin/index.html https://docs. ...

  8. Oracle 12c RAC 安装文档

    参考文档: https://docs.oracle.com/en/database/oracle/oracle-database/12.2/cwlin/index.html https://docs. ...

  9. Azkaban使用安装文档

    Azkaban使用安装文档 Azkaban简介 Azkaban的是什么 Azkaban是由Linkedin公司推出的一个批量工作流任务调度器,用于在一个工作流内以一个特定的顺序运行一组工作和流程.Az ...

随机推荐

  1. 【hive】count() count(if) count(distinct if) sum(if)的区别

    表名: user_active_day (用户日活表) 表内容: user_id(用户id)   user_is_new(是否新用户 1:新增用户 0:老用户) location_city(用户所在地 ...

  2. win7下解压安装mysql的方法

    在win7下通过解压安装mysql 5.7一直出现启动不成功,网上找了好久终于找到一个解决方法,记录一下: 1.解压下载的压缩包 2.在解压目录下,将my-default.ini改名为my.ini, ...

  3. mac 终端 使用ftp命令

    Mac下使用命令行登陆ftp 最近使用forklift下载服务器pureftp上的东西,总是断断续续的,经常下载到99%然后显示下载失败,非常不舒服!原以为是forklift的问题,换了transmi ...

  4. Spring学习-学习路线

    Spring的IOC Spring的AOP , AspectJ Spring的事务管理 , 三大框架的整合

  5. C#修改注册表

    某次需要使用C#对注册表进行操作,不过却发现没有权限,研究了以下发现是当前系统用户的问题.除非当前系统用户是Administrator,否则就会给你抛出一个异常.后来在网上发现了一个方法,原来C#也可 ...

  6. Diffie-Hellman 算法

    Diffie-Hellman 算法描述: 目前被许多商业产品交易采用. HD 算法为公开的密钥算法,发明于1976年.该算法不能用于加密或解密,而是用于密钥的传输和分配.      DH 算法的安全性 ...

  7. CenOS7.4内核升级修复系统漏洞

    先查看当前内核版本# uname -a 一. 导入key# rpm --import https://www.elrepo.org/RPM-GPG-KEY-elrepo.org 二. 安装elrepo ...

  8. hasura graphql pg 自定义函数的使用

      hasura graphql 的安装可以参考相关项目 创建函数 数据表创建 CREATE TABLE sql_function_table ( id SERIAL PRIMARY KEY, inp ...

  9. linux下nginx安装、配置实战

    1什么是Nginx Nginx("enginex")是一个高性能的HTTP和反向代理服务器,也是一个IMAP/POP3/SMTP代理服务器,在高连接并发的情况下Nginx是Apac ...

  10. Redis 集群方案介绍

    由于Redis出众的性能,其在众多的移动互联网企业中得到广泛的应用.Redis在3.0版本前只支持单实例模式,虽然现在的服务器内存可以到100GB.200GB的规模,但是单实例模式限制了Redis没法 ...