Spark学习之路（五）Spark伪分布式安装

一、JDK的安装

JDK使用root用户安装

1.1　上传安装包并解压

[root@hadoop1 soft]# tar -zxvf jdk-8u73-linux-x64.tar.gz -C /usr/local/

1.2　配置环境变量

[root@hadoop1 soft]# vi /etc/profile

#JAVA
export JAVA_HOME=/usr/local/jdk1..0_73
export CLASSPATH=$CLASSPATH:$JAVA_HOME/lib:$JAVA_HOME/jre/lib
export PATH=$JAVA_HOME/bin:$JAVA_HOME/jre/bin:$PATH:$HOME/bin

1.3　验证Java版本

[root@hadoop1 soft]# java -version

二、配置配置ssh localhost

使用hadoop用户安装

2.1　检测

正常情况下，本机通过ssh连接自己也是需要输入密码的

2.2　生成私钥和公钥秘钥对

[hadoop@hadoop1 ~]$ ssh-keygen -t rsa

2.3　将公钥添加到authorized_keys

[hadoop@hadoop1 ~]$ cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys

2.4　赋予authorized_keys文件600的权限

[hadoop@hadoop1 ~]$ chmod 600 ~/.ssh/authorized_keys

2.5　修改Linux映射文件(root用户)

[root@hadoop1 ~]$ vi /etc/hosts

2.6　验证

[hadoop@hadoop1 ~]$ ssh hadoop1

此时不需要输入密码，免密登录设置成功。

三、安装Hadoop-2.7.5

使用hadoop用户

3.1　上传解压缩

[hadoop@hadoop1 ~]$ tar -zxvf hadoop-2.7.5-centos-6.7.tar.gz -C apps/

3.2　创建安装包对应的软连接

为解压的hadoop包创建软连接

[hadoop@hadoop1 ~]$ cd apps/
[hadoop@hadoop1 apps]$ ll
总用量
drwxr-xr-x.  hadoop hadoop  12月  : hadoop-2.7.
[hadoop@hadoop1 apps]$ ln -s hadoop-2.7.5/ hadoop

3.3　修改配置文件

进入/home/hadoop/apps/hadoop/etc/hadoop/目录下修改配置文件

（1）修改hadoop-env.sh

[hadoop@hadoop1 hadoop]$ vi hadoop-env.sh

export JAVA_HOME=/usr/local/jdk1..0_73

（2）修改core-site.xml

[hadoop@hadoop1 hadoop]$ vi core-site.xml

<configuration>
        <property>
                <name>fs.defaultFS</name>
                <value>hdfs://hadoop1:9000</value>
        </property>
        <property>
                <name>hadoop.tmp.dir</name>
                <value>/home/hadoop/data/hadoopdata</value>
        </property>
</configuration>

（3）修改hdfs-site.xml

[hadoop@hadoop1 hadoop]$ vi hdfs-site.xml

dfs的备份数目，单机用1份就行

        <property>
                <name>dfs.namenode.name.dir</name>
                <value>/home/hadoop/data/hadoopdata/name</value>
                <description>为了保证元数据的安全一般配置多个不同目录</description>
        </property>
 
        <property>
                <name>dfs.datanode.data.dir</name>
                <value>/home/hadoop/data/hadoopdata/data</value>
                <description>datanode 的数据存储目录</description>
        </property>
 
        <property>
                <name>dfs.replication</name>
                <value></value>
                <description>HDFS 的数据块的副本存储个数, 默认是3</description>
        </property>

（4）修改mapred-site.xml

[hadoop@hadoop1 hadoop]$ cp mapred-site.xml.template mapred-site.xml
[hadoop@hadoop1 hadoop]$ vi mapred-site.xml

mapreduce.framework.name：指定mr框架为yarn方式,Hadoop二代MP也基于资源管理系统Yarn来运行。

<configuration>
        <property>
                <name>mapreduce.framework.name</name>
                <value>yarn</value>
        </property>
</configuration>

（5）修改yarn-site.xml

[hadoop@hadoop1 hadoop]$ vi yarn-site.xml

 　　　　<property>
                <name>yarn.nodemanager.aux-services</name>
                <value>mapreduce_shuffle</value>
                <description>YARN 集群为 MapReduce 程序提供的 shuffle 服务</description>
        </property>

3.4　配置环境变量

千万注意：

1、如果你使用root用户进行安装。 vi /etc/profile 即可系统变量

2、如果你使用普通用户进行安装。 vi ~/.bashrc 用户变量

[hadoop@hadoop1 ~]$ vi .bashrc

#HADOOP_HOME
export HADOOP_HOME=/home/hadoop/apps/hadoop-2.7.
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin:

使环境变量生效

[hadoop@hadoop1 bin]$ source ~/.bashrc

3.5　查看hadoop版本

[hadoop@hadoop1 ~]$ hadoop version

3.6　创建文件夹

文件夹的路径参考配置文件hdfs-site.xml里面的路径

[hadoop@hadoop1 ~]$ mkdir -p /home/hadoop/data/hadoopdata/name
[hadoop@hadoop1 ~]$ mkdir -p /home/hadoop/data/hadoopdata/data

3.7　Hadoop的初始化

[hadoop@hadoop1 ~]$ hadoop namenode -format

3.8　启动HDFS和YARN

[hadoop@hadoop1 ~]$ start-dfs.sh
[hadoop@hadoop1 ~]$ start-yarn.sh

3.9　检查WebUI

浏览器打开端口50070：http://hadoop1:50070

其他端口说明：
port 8088: cluster and all applications
port 50070: Hadoop NameNode
port 50090: Secondary NameNode
port 50075: DataNode

四、Scala的安装（可选）

使用root安装

4.1　下载

Scala下载地址http://www.scala-lang.org/download/all.html

选择对应的版本，此处在Linux上安装，选择的版本是scala-2.11.8.tgz

4.2　上传解压缩

[root@hadoop1 hadoop]# tar -zxvf scala-2.11.8.tgz -C /usr/local/

4.3　配置环境变量

[root@hadoop1 hadoop]# vi /etc/profile

#Scala
export SCALA_HOME=/usr/local/scala-2.11.
export PATH=$SCALA_HOME/bin:$PATH

保存并使其立即生效

[root@hadoop1 scala-2.11.]# source /etc/profile

4.4　验证是否安装成功

[root@hadoop1 ~]# scala -version

五、Spark的安装

5.1　下载安装包

下载地址：

http://spark.apache.org/downloads.html

http://mirrors.hust.edu.cn/apache/

https://mirrors.tuna.tsinghua.edu.cn/apache/

5.2　上传解压缩

[hadoop@hadoop1 ~]$ tar -zxvf spark-2.3.0-bin-hadoop2.7.tgz -C apps/

5.3　为解压包创建一个软连接

[hadoop@hadoop1 ~]$ cd apps/
[hadoop@hadoop1 apps]$ ls
hadoop  hadoop-2.7.  spark-2.3.-bin-hadoop2.
[hadoop@hadoop1 apps]$ ln -s spark-2.3.0-bin-hadoop2.7/ spark

5.4　进入spark/conf修改配置文件

[hadoop@hadoop1 apps]$ cd spark/conf/

复制spark-env.sh.template并重命名为spark-env.sh，并在文件最后添加配置内容

[hadoop@hadoop1 conf]$ cp spark-env.sh.template spark-env.sh
[hadoop@hadoop1 conf]$ vi spark-env.sh

export JAVA_HOME=/usr/local/jdk1..0_73
export SCALA_HOME=/usr/share/scala-2.11.
export HADOOP_HOME=/home/hadoop/apps/hadoop-2.7.
export HADOOP_CONF_DIR=/home/hadoop/apps/hadoop-2.7./etc/hadoop
export SPARK_MASTER_IP=hadoop1
export SPARK_MASTER_PORT=

5.5　配置环境变量

[hadoop@hadoop1 conf]$ vi ~/.bashrc

#SPARK_HOME
export SPARK_HOME=/home/hadoop/apps/spark
export PATH=$PATH:$SPARK_HOME/bin

保存使其立即生效

[hadoop@hadoop1 conf]$ source ~/.bashrc

5.6　启动Spark

[hadoop@hadoop1 ~]$  ~/apps/spark/sbin/start-all.sh

5.7　查看进程

5.8　查看web界面

http://hadoop1:8080/