Spark学习之路 (五)Spark伪分布式安装
一、JDK的安装
JDK使用root用户安装
1.1 上传安装包并解压
- [root@hadoop1 soft]# tar -zxvf jdk-8u73-linux-x64.tar.gz -C /usr/local/
1.2 配置环境变量
- [root@hadoop1 soft]# vi /etc/profile
- #JAVA
- export JAVA_HOME=/usr/local/jdk1..0_73
- export CLASSPATH=$CLASSPATH:$JAVA_HOME/lib:$JAVA_HOME/jre/lib
- export PATH=$JAVA_HOME/bin:$JAVA_HOME/jre/bin:$PATH:$HOME/bin
1.3 验证Java版本
- [root@hadoop1 soft]# java -version
二、配置配置ssh localhost
使用hadoop用户安装
2.1 检测
正常情况下,本机通过ssh连接自己也是需要输入密码的
2.2 生成私钥和公钥秘钥对
- [hadoop@hadoop1 ~]$ ssh-keygen -t rsa
2.3 将公钥添加到authorized_keys
- [hadoop@hadoop1 ~]$ cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
2.4 赋予authorized_keys文件600的权限
- [hadoop@hadoop1 ~]$ chmod 600 ~/.ssh/authorized_keys
2.5 修改Linux映射文件(root用户)
- [root@hadoop1 ~]$ vi /etc/hosts
2.6 验证
- [hadoop@hadoop1 ~]$ ssh hadoop1
此时不需要输入密码,免密登录设置成功。
三、安装Hadoop-2.7.5
使用hadoop用户
3.1 上传解压缩
- [hadoop@hadoop1 ~]$ tar -zxvf hadoop-2.7.5-centos-6.7.tar.gz -C apps/
3.2 创建安装包对应的软连接
为解压的hadoop包创建软连接
- [hadoop@hadoop1 ~]$ cd apps/
- [hadoop@hadoop1 apps]$ ll
- 总用量
- drwxr-xr-x. hadoop hadoop 12月 : hadoop-2.7.
- [hadoop@hadoop1 apps]$ ln -s hadoop-2.7.5/ hadoop
3.3 修改配置文件
进入/home/hadoop/apps/hadoop/etc/hadoop/目录下修改配置文件
(1)修改hadoop-env.sh
- [hadoop@hadoop1 hadoop]$ vi hadoop-env.sh
- export JAVA_HOME=/usr/local/jdk1..0_73
(2)修改core-site.xml
- [hadoop@hadoop1 hadoop]$ vi core-site.xml
- <configuration>
- <property>
- <name>fs.defaultFS</name>
- <value>hdfs://hadoop1:9000</value>
- </property>
- <property>
- <name>hadoop.tmp.dir</name>
- <value>/home/hadoop/data/hadoopdata</value>
- </property>
- </configuration>
(3)修改hdfs-site.xml
- [hadoop@hadoop1 hadoop]$ vi hdfs-site.xml
dfs的备份数目,单机用1份就行
- <property>
- <name>dfs.namenode.name.dir</name>
- <value>/home/hadoop/data/hadoopdata/name</value>
- <description>为了保证元数据的安全一般配置多个不同目录</description>
- </property>
- <property>
- <name>dfs.datanode.data.dir</name>
- <value>/home/hadoop/data/hadoopdata/data</value>
- <description>datanode 的数据存储目录</description>
- </property>
- <property>
- <name>dfs.replication</name>
- <value></value>
- <description>HDFS 的数据块的副本存储个数, 默认是3</description>
- </property>
(4)修改mapred-site.xml
- [hadoop@hadoop1 hadoop]$ cp mapred-site.xml.template mapred-site.xml
- [hadoop@hadoop1 hadoop]$ vi mapred-site.xml
mapreduce.framework.name:指定mr框架为yarn方式,Hadoop二代MP也基于资源管理系统Yarn来运行 。
- <configuration>
- <property>
- <name>mapreduce.framework.name</name>
- <value>yarn</value>
- </property>
- </configuration>
(5)修改yarn-site.xml
- [hadoop@hadoop1 hadoop]$ vi yarn-site.xml
- <property>
- <name>yarn.nodemanager.aux-services</name>
- <value>mapreduce_shuffle</value>
- <description>YARN 集群为 MapReduce 程序提供的 shuffle 服务</description>
- </property>
3.4 配置环境变量
千万注意:
1、如果你使用root用户进行安装。 vi /etc/profile 即可 系统变量
2、如果你使用普通用户进行安装。 vi ~/.bashrc 用户变量
- [hadoop@hadoop1 ~]$ vi .bashrc
- #HADOOP_HOME
export HADOOP_HOME=/home/hadoop/apps/hadoop-2.7.- export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin:
使环境变量生效
- [hadoop@hadoop1 bin]$ source ~/.bashrc
3.5 查看hadoop版本
- [hadoop@hadoop1 ~]$ hadoop version
3.6 创建文件夹
文件夹的路径参考配置文件hdfs-site.xml里面的路径
- [hadoop@hadoop1 ~]$ mkdir -p /home/hadoop/data/hadoopdata/name
- [hadoop@hadoop1 ~]$ mkdir -p /home/hadoop/data/hadoopdata/data
3.7 Hadoop的初始化
- [hadoop@hadoop1 ~]$ hadoop namenode -format
3.8 启动HDFS和YARN
- [hadoop@hadoop1 ~]$ start-dfs.sh
[hadoop@hadoop1 ~]$ start-yarn.sh
3.9 检查WebUI
浏览器打开端口50070:http://hadoop1:50070
其他端口说明:
port 8088: cluster and all applications
port 50070: Hadoop NameNode
port 50090: Secondary NameNode
port 50075: DataNode
四、Scala的安装(可选)
使用root安装
4.1 下载
Scala下载地址http://www.scala-lang.org/download/all.html
选择对应的版本,此处在Linux上安装,选择的版本是scala-2.11.8.tgz
4.2 上传解压缩
- [root@hadoop1 hadoop]# tar -zxvf scala-2.11.8.tgz -C /usr/local/
4.3 配置环境变量
- [root@hadoop1 hadoop]# vi /etc/profile
- #Scala
- export SCALA_HOME=/usr/local/scala-2.11.
- export PATH=$SCALA_HOME/bin:$PATH
保存并使其立即生效
- [root@hadoop1 scala-2.11.]# source /etc/profile
4.4 验证是否安装成功
- [root@hadoop1 ~]# scala -version
五、Spark的安装
5.1 下载安装包
下载地址:
http://spark.apache.org/downloads.html
http://mirrors.hust.edu.cn/apache/
https://mirrors.tuna.tsinghua.edu.cn/apache/
5.2 上传解压缩
- [hadoop@hadoop1 ~]$ tar -zxvf spark-2.3.0-bin-hadoop2.7.tgz -C apps/
5.3 为解压包创建一个软连接
- [hadoop@hadoop1 ~]$ cd apps/
- [hadoop@hadoop1 apps]$ ls
- hadoop hadoop-2.7. spark-2.3.-bin-hadoop2.
- [hadoop@hadoop1 apps]$ ln -s spark-2.3.0-bin-hadoop2.7/ spark
5.4 进入spark/conf修改配置文件
- [hadoop@hadoop1 apps]$ cd spark/conf/
复制spark-env.sh.template并重命名为spark-env.sh,并在文件最后添加配置内容
- [hadoop@hadoop1 conf]$ cp spark-env.sh.template spark-env.sh
- [hadoop@hadoop1 conf]$ vi spark-env.sh
- export JAVA_HOME=/usr/local/jdk1..0_73
- export SCALA_HOME=/usr/share/scala-2.11.
- export HADOOP_HOME=/home/hadoop/apps/hadoop-2.7.
- export HADOOP_CONF_DIR=/home/hadoop/apps/hadoop-2.7./etc/hadoop
- export SPARK_MASTER_IP=hadoop1
- export SPARK_MASTER_PORT=
5.5 配置环境变量
- [hadoop@hadoop1 conf]$ vi ~/.bashrc
- #SPARK_HOME
- export SPARK_HOME=/home/hadoop/apps/spark
- export PATH=$PATH:$SPARK_HOME/bin
保存使其立即生效
- [hadoop@hadoop1 conf]$ source ~/.bashrc
5.6 启动Spark
- [hadoop@hadoop1 ~]$ ~/apps/spark/sbin/start-all.sh
5.7 查看进程
5.8 查看web界面
Spark学习之路 (五)Spark伪分布式安装的更多相关文章
- Hbase学习记录(1)|伪分布式安装
概述 Hbase –Haddop Database 是一个高性能,高可靠性.面向列.可伸缩的分布式存储系统. Hbase利用HDFS作为文件存储系统,利用MapReduce来处理Hbase的海量数据, ...
- 【Hadoop学习之二】Hadoop伪分布式安装
环境 虚拟机:VMware 10 Linux版本:CentOS-6.5-x86_64 客户端:Xshell4 FTP:Xftp4 jdk8 hadoop-3.1.1 伪分布式就 ...
- [转]Spark学习之路 (三)Spark之RDD
Spark学习之路 (三)Spark之RDD https://www.cnblogs.com/qingyunzong/p/8899715.html 目录 一.RDD的概述 1.1 什么是RDD? ...
- Spark学习笔记2(spark所需环境配置
Spark学习笔记2 配置spark所需环境 1.首先先把本地的maven的压缩包解压到本地文件夹中,安装好本地的maven客户端程序,版本没有什么要求 不需要最新版的maven客户端. 解压完成之后 ...
- Hadoop大数据初入门----haddop伪分布式安装
一.hadoop解决了什么问题 hdfs 解决了海量数据的分布式存储,高可靠,易扩展,高吞吐量mapreduce 解决了海量数据的分析处理,通用性强,易开发,健壮性 yarn 解决了资源管理调度 二. ...
- 一.Kylin的伪分布式安装
一.伪分布式安装kylin 2018年4月15日 15:06 安装需要的环境 1. hadoop集群环境:由于安装的是CDH5.14.0的版本,所以相关组件都是跟5.14.0相关 2. spark采用 ...
- HBase伪分布式安装(HDFS)+ZooKeeper安装+HBase数据操作+HBase架构体系
HBase1.2.2伪分布式安装(HDFS)+ZooKeeper-3.4.8安装配置+HBase表和数据操作+HBase的架构体系+单例安装,记录了在Ubuntu下对HBase1.2.2的实践操作,H ...
- 指导手册02:伪分布式安装Hadoop(ubuntuLinux)
指导手册02:伪分布式安装Hadoop(ubuntuLinux) Part 1:安装及配置虚拟机 1.安装Linux. 1.安装Ubuntu1604 64位系统 2.设置语言,能输入中文 3.创建 ...
- hadoop伪分布式安装之Linux环境准备
Hadoop伪分布式安装之Linux环境准备 一.软件版本 VMare Workstation Pro 14 CentOS 7 32/64位 二.实现Linux服务器联网功能 网络适配器双击选择VMn ...
- Hadoop开发第3期---Hadoop的伪分布式安装
一.准备工作 1. 远程连接工具的安装 PieTTY 是在PuTTY 基础上开发的,改进了Putty 的用户界面,提供了多语种支持.Putty 作为远程连接linux 的工具,支持SSH 和telne ...
随机推荐
- 如何在win+r 或者是win10的应用搜索输入subl就能打开sublime
这虽然不是什么技术贴,我实在不想开启sublime还要动鼠标,或者输入subl长长的全称,这里有两种做法: 第一种 在环境变量添加sublime安装目录的变量,一般sublime的安装目录会有subl ...
- js禁用页面上右键菜单、选中和复制
有时候我们不想页面上的内容被人复制走,那么就可以使用js对页面进行设置,禁止右键菜单.禁止选中.禁止复制等功能可以有效的达到这个效果,js代码如下所示: /** * 禁用右键菜单 */ documen ...
- 为什么要使用 Docker(二)
作为一种新兴的虚拟化方式,Docker 跟传统的虚拟化方式相比具有众多的优势. 更高效的利用系统资源 由于容器不需要进行硬件虚拟以及运行完整操作系统等额外开销,Docker 对系统资源的利用率更高.无 ...
- MySql left join 多表连接查询优化语句
先过滤条件然后再根据表连接 同时在表中建立相关查询字段的索引这样在大数据多表联合查询的情况下速度相当快 创建索引: create index ix_register_year ON dbo.selec ...
- 如何修改帝国cms文章点击量默认值和成倍增加
我们在帝国cms发布完文章,在不点击的情况下,“点击量”默认显示为0,请问有什么方法,修改关注默认值吗?这个可以在增加信息时,“特殊属性”标签里修改点击量,如下图 有朋友问有没其他好的方法快速增加.成 ...
- unix下命令窗分屏工具
运行 sudo apt-get install terminator 效果 新建分屏窗口:右键鼠标选择
- Python3学习之路~5.4 os模块
用于提供系统级别的操作 os.getcwd() 获取当前工作目录,即当前python脚本工作的目录路径 os.chdir("dirname") 改变当前脚本工作目录:相当于shel ...
- sed 操作命令
sed介绍 grep 只能过滤文件内容,sed既能过滤文件内容同时还能对文件内容进行修改. sed 算是一种编程语言,它有自己的固定语法. sed是一种行编辑器,sed会在内存中开辟一块独立的空间( ...
- python字符串前面加u,r,b的含义
转自:https://blog.csdn.net/u010496169/article/details/70045895 u/U:表示unicode字符串 不是仅仅是针对中文, 可以针对任何的字符串, ...
- Ext.define细节分析
自己写的其实还是不懂,再看看别人写的吧Extjs4 源码分析系列一 类的创建过程https://www.cnblogs.com/creazyguagua/p/4302864.htmlhttp://ww ...