新闻实时分析系统-Hadoop2.X分布式集群部署

（一）hadoop2.x版本下载及安装

Hadoop 版本选择目前主要基于三个厂商（国外）如下所示：

1.基于Apache厂商的最原始的hadoop版本，所有发行版均基于这个版本进行改进。

2.基于HortonWorks厂商的开源免费的hdp版本。

3.基于Cloudera厂商的cdh版本，Cloudera有免费版和企业版，企业版只有试用期。不过cdh大部分功能都是免费的。

（二）hadoop2.x分布式集群配置

1.集群资源规划设计

2.hadoop2.x分布式集群配置

1）hadoop2.x分布式集群配置-HDFS

安装hdfs需要修改4个配置文件：hadoop-env.sh、core-site.xml、hdfs-site.xml和slaves

2）hadoop2.x分布式集群配置-YARN

安装yarn需要修改4个配置文件：yarn-env.sh、mapred-env.sh、yarn-site.xml和mapred-site.xml

（三）分发到其他各个机器节点

hadoop相关配置在第一个节点配置好之后，可以通过脚本命令分发给另外两个节点即可，具体操作如下所示。

#将安装包分发给第二个节点

scp -r hadoop-2.5.0 kaf@bigdata-pro02.kfk.com:/opt/modules/

#将安装包分发给第三个节点

scp -r hadoop-2.5.0 kaf@bigdata-pro02.kfk.com:/opt/modules/

（四）HDFS启动集群运行测试

hdfs相关配置好之后，可以启动hdfs集群。

1.格式化NameNode

通过命令：bin/hdfs namenode -format 格式化NameNode。

2.启动各个节点机器服务

1）启动NameNode命令：sbin/hadoop-daemon.sh start namenode

2) 启动DataNode命令：sbin/hadoop-daemon.sh start datanode

3）启动ResourceManager命令：sbin/yarn-daemon.sh start resourcemanager

4）启动NodeManager命令：sbin/yarn-daemon.sh start resourcemanager

5）启动log日志命令：sbin/mr-jobhistory-daemon.sh start historyserver

（五）YARN集群运行MapReduce程序测试

前面hdfs和yarn都启动起来之后，可以通过运行WordCount程序检测一下集群是否能run起来。

集群自带的WordCount程序执行命令：bin/yarn jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.5.0.jar wordcount input output

（六）ssh无秘钥登录

在集群搭建的过程中，需要不同节点分发文件，那么节点间分发文件每次都需要输入密码，比较麻烦。另外在hadoop 集群启动过程中，也需要使用批量脚本统一启动各个节点服务，此时也需要节点之间实现无秘钥登录。具体操作步骤如下所示：

1.主节点上创建 .ssh 目录，然后生成公钥文件id_rsa.pub和私钥文件id_rsa

mkdir .ssh

ssh-keygen -t rsa

2.拷贝公钥到各个机器

ssh-copy-id bigdata-pro1.kfk.com

ssh-copy-id bigdata-pro2.kfk.com

ssh-copy-id bigdata-pro3.kfk.com

3.测试ssh连接

ssh bigdata-pro1.kfk.com

ssh bigdata-pro2.kfk.com

ssh bigdata-pro3.kfk.com

4.测试hdfs

ssh无秘钥登录做好之后，可以在主节点通过一键启动命令，启动hdfs各个节点的服务，具体操作如下所示：

sbin/start-dfs.sh

如果yarn和hdfs主节点共用，配置一个节点即可。否则，yarn也需要单独配置ssh无秘钥登录。

（七）配置集群内机器时间同步（使用Linux ntp进行）

选择一台机器作为时间服务器，比如bigdata-pro1.kfk.com节点。

1.查看ntp服务是否已经存在

sudo rpm -qa|grep ntp

2.ntp服务相关操作

1）查看ntp状态

sudo service ntpd status

2）启动ntp

sudo service ntpd start

3）关闭ntp

sudo service ntpd stop

3.设置ntp随机器启动

sudo chkconfig ntpd on

4.修改ntp配置文件

vi /etc/ntp.conf

#释放注释并将ip地址修改为

restrict 192.168.31.151 mask 255.255.255.0 nomodify notrap

#注释掉以下命令行

server 0.centos.pool.ntp.org iburst

server 1.centos.pool.ntp.org iburst

server 2.centos.pool.ntp.org iburst

server 3.centos.pool.ntp.org iburst

#释放以下命令行

server 127.127.1.0 #local clock

fudge 127.127.1.0 stratum 10

重启ntp服务

sudo service ntpd restart

5.修改服务器时间

#设置当前日期

sudo date -s 2017-06-16

#设置当前时间

sudo date -s 22:06:00

6.其他节点手动同步主服务器时间

#查看ntp位置

which ntpdate

/usr/sbin/ntpdate

1）手动同步bigdata-pro2.kfk.com节点时间

sudo /usr/sbin/ntpdate bigdata-pro2.kfk.com

2）手动同步bigdata-pro3.kfk.com节点时间

sudo /usr/sbin/ntpdate bigdata-pro3.kfk.com

7.其他节点定时同步主服务器时间

bigdata-pro2.kfk.com和bigdata-pro3.kfk.com节点分别切换到root用户，通过crontab -e 命令，每10分钟同步一次主服务器节点的时间。

crontab -e

#定时，每隔10分钟同步bigdata-pro1.kfk.com服务器时间

0-59/10 * * * * /usr/sbin/ntpdate bigdata-pro1.kfk.com

新闻实时分析系统-Hadoop2.X分布式集群部署的更多相关文章

新闻网大数据实时分析可视化系统项目——3、Hadoop2.X分布式集群部署
(一)hadoop2.x版本下载及安装 Hadoop 版本选择目前主要基于三个厂商(国外)如下所示: 1.基于Apache厂商的最原始的hadoop版本, 所有发行版均基于这个版本进行改进. 2.基于 ...
Hadoop2.X分布式集群部署
本博文集群搭建没有实现Hadoop HA,详细文档在后续给出,本次只是先给出大概逻辑思路. (一)hadoop2.x版本下载及安装 Hadoop 版本选择目前主要基于三个厂商(国外)如下所示: 基于A ...
新闻实时分析系统-Hadoop2.X HA架构与部署
1.HDFS-HA架构原理介绍 hadoop2.x之后,Clouera提出了QJM/Qurom Journal Manager,这是一个基于Paxos算法实现的HDFS HA方案,它给出了一种较好的解 ...
超详细从零记录Hadoop2.7.3完全分布式集群部署过程
超详细从零记录Ubuntu16.04.1 3台服务器上Hadoop2.7.3完全分布式集群部署过程.包含,Ubuntu服务器创建.远程工具连接配置.Ubuntu服务器配置.Hadoop文件配置.Had ...
Hadoop分布式集群部署(单namenode节点)
Hadoop分布式集群部署系统系统环境: OS: CentOS 6.8 内存:2G CPU:1核 Software:jdk-8u151-linux-x64.rpm hadoop-2.7.4.tar. ...
Hadoop(HA)分布式集群部署
Hadoop(HA)分布式集群部署和单节点namenode部署其实一样,只是配置文件的不同罢了. 这篇就讲解hadoop双namenode的部署,实现高可用. 系统环境: OS: CentOS 6.8 ...
Hadoop教程(五)Hadoop分布式集群部署安装
Hadoop教程(五)Hadoop分布式集群部署安装 1 Hadoop分布式集群部署安装在hadoop2.0中通常由两个NameNode组成,一个处于active状态,还有一个处于standby状态 ...
hadoop分布式集群部署①
Linux系统的安装和配置.(在VM虚拟机上) 一:安装虚拟机VMware Workstation 14 Pro 以上,虚拟机软件安装完成. 二:创建虚拟机. 三:安装CentOS系统 (1)上面步 ...
基于winserver的Apollo配置中心分布式&集群部署实践（正确部署姿势）
基于winserver的Apollo配置中心分布式&集群部署实践(正确部署姿势) 前言前几天对Apollo配置中心的demo进行一个部署试用,现公司已决定使用,这两天进行分布式部署的时候 ...

随机推荐

[.Net Core 3.0从入门到精通]1.笔记简介及.Net Core3.0介绍
文章目的:.Net Core 3.0学习笔记整理与分享. 面向人群:有一定基础的C#开发人员或学习人员(C#语法一定要掌握). 笔者水平:中级C#开发攻城狮(水平有限,写的不对的地方希望大家指正). ...
javascript严格模式的影响
针对js严格模式会报错的编码操作进行了整理,避免不严谨的代码习惯,面向未来编程(es6+) 变量 1.定义八进制格式的数字 2.不带var的变量定义--包括函数体内的 3.对变量的delete操作-- ...
Veins（车载通信仿真框架）入门教程（四）——调试及记录结果
Veins(车载通信仿真框架)入门教程(四)——调试及记录结果在Veins入门教程(三)最后的动图中(如下图)可以看到大大小小的光圈,这个怎么实现的呢? 很简单,以收到RTS消息为例,通过finHo ...
redis系列之------对象
前言 Redis 并没有直接使用数据结构来实现键值对数据库, 而是基于这些数据结构创建了一个对象系统, 这个系统包含字符串对象.列表对象.哈希对象.集合对象和有序集合对象这五种类型的对象, 每种对象都 ...
Java基础（十二）lambda表达式
1.引入lambda表达式的重要性 lambda表达式是一个可传递的代码块,可以在以后执行一次或多次. 在前面的回调部分,有一个例子是,ActionListener类实现了TimePrinter接口并 ...
day2编程语言发展史
1.编程语言的发展史: 机器语言优点:执行速度够快缺点:开发效率非常低汇编语言(通过英文字符组成) 优点:执行效率相较于机器语言略低. 缺点:执行效率相较于机器语言略高. 高级语言 c ,c++ ...
Netty 入门，这一篇文章就够了
Netty是Java领域有名的开源网络库,特点是高性能和高扩展性,因此很多流行的框架都是基于它来构建的,比如我们熟知的Dubbo.Rocketmq.Hadoop等,针对高性能RPC,一般都是基于Net ...
MATLAB实例：聚类初始化方法与数据归一化方法
MATLAB实例:聚类初始化方法与数据归一化方法作者:凯鲁嘎吉 - 博客园 http://www.cnblogs.com/kailugaji/ 1. 聚类初始化方法:init_methods.m f ...
Luogu P2668 斗地主（NOIP2015）
还记得那道我只用特判得了30分的"斗地主"吗? 我今天脑抽打算把它改A掉.为什么不用这大好时光去干些更有意义的事于是我就挖了这个坑. 题解: 题目链接:P2668 斗地主本题就 ...
Dijkstra算法笔记与思路整理
该文章可能存在硬伤与不妥,不能作为教程阅读.(因为我真的鶸 Dij作为单源最短路算法,需要先确定一个起点.Dij的函数主体为维护每个节点的dis和vis两个变量.dis表示该点距离起点的最短路权值和, ...

新闻实时分析系统-Hadoop2.X分布式集群部署

新闻实时分析系统-Hadoop2.X分布式集群部署的更多相关文章

随机推荐

热门专题