上一节把Centos的集群免密码ssh登陆搭建完成,这一节主要讲一下Hadoop的环境搭建。

Hadoop下载安装

  下载官网的Hadoop 2.4.1的软件包。http://hadoop.apache.org/,或在百度网盘进行下载。链接: http://pan.baidu.com/s/1gePE9O3 密码: unmt

  下载完以后将通过Xftp上传到服务器器上。我是放在/home/software目录下

[root@spark1 ~]# cd /home/software/
[root@spark1 software]# ls
hadoop-2.4.1-x64.tar.gz scala-2.11.8.tgz
[root@spark1 software]#

  然后解压放到/usr/lib目录下,并且重命名为hadoop,这里hadoop的配置和之前Scala、Java差不多。

[root@spark1 software]# tar -zxf hadoop-2.4.1-x64.tar.gz    //解压
[root@spark1 software]# mv hadoop-2.4.1-x64 /usr/lib/hadoop //重命名 [root@spark1 software]# cd /usr/lib //编辑环境变量
[root@spark1 lib]# vi ~/.bashrc//添加到最后两行 export HADOOP_HOME=/usr/lib/hadoop
export PATH=$PATH:$JAVA_HOME/bin:$HADOOP_HOME/bin:$HADOOP_HOME/sbin //保存退出,是环境变量生效
[root@spark1 lib]# source /etc/profile

Hadoop配置文件修改

  然后我们进入hadoop目录,对hadoop的配置文件进行修改。

[root@spark1 etc]# cd hadoop/
[root@spark1 hadoop]# cd etc/
[root@spark1 etc]# cd hadoop/
  • 修改core-site.xml
[root@spark1 hadoop]# vi core-site.xml

  设置hdfs对外的端口,在<configuration>里添加

<configuration>
<property>
<name>fs.default.name</name>
<value>hdfs://spark1:9000</value>
</property>
</configuration>

  保存退出。

  • 修改hdfs-site.xml
[root@spark1 hadoop]# vi hdfs-site.xml

  设置集群的节点数3,hdfs的目录。

<configuration>

<property>
<name>dfs.name.dir</name>
<value>/usr/lib/data/namenode</value>
</property>
<property>
<name>dfs.data.dir</name>
<value>/usr/lib/data/datanode</value>
</property>
<property>
<name>dfs.temp.dir</name>
<value>/usr/lib/data/temp</value>
</property>
<property>
<name>dfs.replication</name>
<value>3</value>
</property> </configuration>

  保存退出,根据上面的配置路径新建data目录。

[root@spark1 lib]# cd /usr/lib
[root@spark1 lib]# mkdir data
  • 修改mapred-site.xml.template
[root@spark1 hadoop]# vi mapred-site.xml.template

  设置MapReduce运行在yarn上,在<configuration>里添加

<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>

  保存退出。

  • 修改yarn-site.xml
[root@spark1 hadoop]# vi yarn-site.xml

  在<configuration>里添加

<property>
<name>yarn.resourcemanager.webapp.address</name>
<value>spark1:8088</value>
</property>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property> 

  保存退出。

  • 修改slaves
[root@spark1 hadoop]# vi slaves
spark1
spark2
spark3

  保存退出,全部配置文件完成,是文件生效。

[root@spark1 hadoop]# source ~/.bashrc

为集群三台服务器全部配置Hadoop配置

  将spark1上的配置文件拷贝到spark2和spark3上。

[root@spark1 hadoop]# cd /usr/lib
[root@spark1 lib]# scp -r hadoop root@spark2:/usr/lib/

  拷贝完成后别忘了在spark2和spark3上创建/usr/lib目录上的data文件夹,/etc/profile文件也要都修改,改完别忘了另外两台服务器生效。

[root@spark2 lib]# source ~/.bashrc 

  都完成之后我们回到spark1服务器上。

  • 格式化namenode
[root@spark1 lib]# hdfs namenode -format
  • 启动hdfs集群,在spark1上启动namenode、secondaryNameNode、datanode,在spark2、spark3上启动datanode
[root@spark1 lib]# start-dfs.sh

  按提示一路操作下来,完成后输入命令查看spark1是否OK

[root@spark1 lib]# jps

  你可以在spark2、spark3下分别输入命令jps查看datanode是否启动。

  完成后你可以在本地打开chrome输入:http://[spark1的外网ip]:50070。出现如下界面

启动Yarn集群

  在spark1上执行命令

[root@spark1 lib]# start-yarn.sh

[root@spark1 lib]# jps

  发现启动了ResourceManager和NodeManager,同时spark2和spark3上也会出现NodeManager。

  完成后你可以在本地打开chrome输入:http://[spark1的外网ip]:8088。出现如下界面(如果未出现该界面,说明之前yarn-site.xml文件里的地址没有配外网ip,可直接修改webapp.address[外网ip:8088])

  至此hadoop集群搭建完毕!

  如有配置问题也可参考:http://blog.csdn.net/greensurfer/article/details/39450369

Spark入门到精通--(第八节)环境搭建(Hadoop搭建)的更多相关文章

  1. Spark入门到精通--(第一节)Spark的前世今生

    最近由于公司慢慢往spark方面开始转型,本人也开始学习,今后陆续会更新一些spark学习的新的体会,希望能够和大家一起分享和进步. Spark是什么? Apache Spark™ is a fast ...

  2. Spark入门到精通--(第九节)环境搭建(Hive搭建)

    上一节搭建完了Hadoop集群,这一节我们来搭建Hive集群,主要是后面的Spark SQL要用到Hive的环境. Hive下载安装 下载Hive 0.13的软件包,可以在百度网盘进行下载.链接: h ...

  3. Spark入门到精通--(第七节)环境搭建(服务器搭建)

    Spark搭建集群比较繁琐,需要的内容比较多,这里主要从Centos.Hadoop.Hive.ZooKeeper.kafka的服务器环境搭建开始讲.其中Centos的搭建不具体说了,主要讲下集群的配置 ...

  4. Spark入门到精通--(第十节)环境搭建(ZooKeeper和kafka搭建)

    上一节搭建完了Hive,这一节我们来搭建ZooKeeper,主要是后面的kafka需要运行在上面. ZooKeeper下载和安装 下载ZooKeeper 3.4.5软件包,可以在百度网盘进行下载.链接 ...

  5. Spark入门到精通--(外传)Cloudera CDH5.5.4搭建

    http://www.mamicode.com/info-detail-601202.html continue...

  6. Spark入门到精通--(第二节)Scala编程详解基础语法

    Scala是什么? Scala是以实现scaleable language为初衷设计出来的一门语言.官方中,称它是object-oriented language和functional languag ...

  7. spark入门到精通(后续开始学习)

    早几年国内外研究者和业界比较关注的是在 Hadoop 平台上的并行化算法设计.然而, HadoopMapReduce 平台由于网络和磁盘读写开销大,难以高效地实现需要大量迭代计算的机器学习并行化算法. ...

  8. Spark修炼之道(进阶篇)——Spark入门到精通:第九节 Spark SQL执行流程解析

    1.总体执行流程 使用下列代码对SparkSQL流程进行分析.让大家明确LogicalPlan的几种状态,理解SparkSQL总体执行流程 // sc is an existing SparkCont ...

  9. NHibernate从入门到精通系列——NHibernate环境与结构体系

    内容摘要 NHibernate的开发环境 NHibernate的结构体系 NHibernate的配置 一.NHibernate的开发环境 NHibernate的英文官方网站为:http://nhfor ...

随机推荐

  1. HDR拍照

    HDR 拍照:        (High Dynamic Range Imaging)高动态范围成像,是用来实现比普通数字图像技术更大曝光动态范围(即更大的明暗差别)的一组技术.高动态范围成像的目的就 ...

  2. 【原创】大数据基础之ORC(1)简介

    https://orc.apache.org Optimized Row Columnar (ORC) file 行列混合存储 层次结构: file -> stripes -> row g ...

  3. 【原创】大叔经验分享(6)Oozie如何查看提交到Yarn上的任务日志

    通过oozie job id可以查看流程详细信息,命令如下: oozie job -info 0012077-180830142722522-oozie-hado-W 流程详细信息如下: Job ID ...

  4. 【原创】大叔问题定位分享(10)提交spark任务偶尔报错 org.apache.spark.SparkException: A master URL must be set in your configuration

    spark 2.1.1 一 问题重现 问题代码示例 object MethodPositionTest { val sparkConf = new SparkConf().setAppName(&qu ...

  5. rsyslog队列说明文档

    常规队列参数 用法 队列参数可与以下语句一起使用: 行动() 规则集() main_queue() 需要在应该影响的操作或规则集中配置队列.如果未配置任何内容,则将使用默认值.因此,默认规则集仅具有默 ...

  6. Java_日期时间相关类

    目录 Date类(java.util.date) Calendar类(java.util.Calendar) SimpleDateFormat类(java.text.SimpleDateFormat) ...

  7. mybatis 查询单个对象,结果集类型一定要明确

    简单介绍:用ssm框架已经有很长时间了,但是似乎从来都没有对于查询单个对象,存在问题的,好像也就是那回事,写完sql就查出来了,也从来都没有认真的想过,为什么会这样,为什么要设置结果集类型 代码: / ...

  8. 课堂小记---html

    其他注意点: 行高line-hight的继承特性: 行高有三种属性值:数字(1.5).百分比(150%).长度值(1.5em或者30px).继承上这三者是有区别的. 当属性值为数字值,其子元素会继承行 ...

  9. LNMP一键安装包添加虚拟主机、删除虚拟主机及如何使用伪静态

    本文主要介绍LNMP一键安装包添加虚拟主机.删除虚拟主机及如何使用伪静态. 一.添加虚拟主机通俗点就是在VPS/服务商上添加一个网站(域名). 需要执行如下命令:/root/vhost.sh 执行后会 ...

  10. C#使用NanUI或ChromiumFx碰到的坑(一)

    最近在花时间封装一个Razor模板+NanUI的Winform组件,发现了有个神奇地方,,由于需要使用CfxResourceHandler,用于把对cshtml文件的请求,编译成html并返回给CEF ...