hadoop生态搭建（3节点）-10.spark配置

# https://www.scala-lang.org/download/2.12.4.html
# ==================================================================安装 scala

tar -zxvf ~/scala-2.12.4.tgz -C /usr/local

rm –r ~/scala-2.12.4.tgz

# http://archive.apache.org/dist/spark/spark-2.3.0/

# ==================================================================安装 spark

tar -zxf ~/spark-2.3.0-bin-hadoop2.7.tgz -C /usr/local

mv /usr/local/spark-2.3.0-bin-hadoop2.7 /usr/local/spark-2.3.0

rm –r ~/spark-2.3.0-bin-hadoop2.7.tgz

# 环境变量
# ==================================================================node1 node2 node3

vi /etc/profile

# 在export PATH USER LOGNAME MAIL HOSTNAME HISTSIZE HISTCONTROL下添加

export JAVA_HOME=/usr/java/jdk1.8.0_111

export ZOOKEEPER_HOME=/usr/local/zookeeper-3.4.12

export HADOOP_HOME=/usr/local/hadoop/hadoop-2.7.6

export MYSQL_HOME=/usr/local/mysql

export HBASE_HOME=/usr/local/hbase-1.2.4

export HIVE_HOME=/usr/local/hive-2.1.1

export SCALA_HOME=/usr/local/scala-2.12.4

export KAFKA_HOME=/usr/local/kafka_2.12-0.10.2.1

export FLUME_HOME=/usr/local/flume-1.8.0

export SPARK_HOME=/usr/local/spark-2.3.0

export PATH=$PATH:$JAVA_HOME/bin:$JAVA_HOME/jre/bin:$ZOOKEEPER_HOME/bin:$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$MYSQL_HOME/bin:$HBASE_HOME/bin:$HIVE_HOME/bin:$SCALA_HOME/bin:$KAFKA_HOME/bin:$FLUME_HOME/bin:$SPARK_HOME/bin:$SPARK_HOME/sbin

export CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar

export HADOOP_INSTALL=$HADOOP_HOME

export HADOOP_MAPRED_HOME=$HADOOP_HOME

export HADOOP_COMMON_HOME=$HADOOP_HOME

export HADOOP_HDFS_HOME=$HADOOP_HOME

export YARN_HOME=$HADOOP_HOME

export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native

# ==================================================================node1

# 使环境变量生效

source /etc/profile

# 查看配置结果

echo $SPARK_HOME

# ==================================================================node1

cp $SPARK_HOME/conf/docker.properties.template $SPARK_HOME/conf/docker.properties

vi $SPARK_HOME/conf/docker.properties

spark.mesos.executor.home: /usr/local/spark-2.3.0

cp $SPARK_HOME/conf/fairscheduler.xml.template $SPARK_HOME/conf/fairscheduler.xml

cp $SPARK_HOME/conf/log4j.properties.template $SPARK_HOME/conf/log4j.properties

cp $SPARK_HOME/conf/metrics.properties.template $SPARK_HOME/conf/metrics.properties

cp $SPARK_HOME/conf/slaves.template $SPARK_HOME/conf/slaves

vi $SPARK_HOME/conf/slaves

node1

node2

node3

cp $SPARK_HOME/conf/spark-defaults.conf.template $SPARK_HOME/conf/spark-defaults.conf

vi $SPARK_HOME/conf/spark-defaults.conf

spark.eventLog.enabled           true

spark.eventLog.dir               hdfs://appcluster/spark/eventslog

# 监控页面需要监控的目录，需要先启用和指定事件日志目录，配合上面两项使用

spark.history.fs.logDirectory    hdfs://appcluster/spark

spark.eventLog.compress          true

# 如果想 YARN ResourceManager 访问 Spark History Server ，则添加一行：

# spark.yarn.historyServer.address http://node1:19888

cp $SPARK_HOME/conf/spark-env.sh.template $SPARK_HOME/conf/spark-env.sh

vi $SPARK_HOME/conf/spark-env.sh

export SPARK_MASTER_PORT=7077        #提交任务的端口，默认是7077

export SPARK_MASTER_WEBUI_PORT=8070  #masster节点的webui端口 默认8080改为8070

export SPARK_WORKER_CORES=1          #每个worker从节点能够支配的core的个数

export SPARK_WORKER_MEMORY=1g        #每个worker从节点能够支配的内存数

export SPARK_WORKER_PORT=7078        #每个worker从节点的端口（可选配置）

export SPARK_WORKER_WEBUI_PORT=8071  #每个worker从节点的wwebui端口（可选配置）

export SPARK_WORKER_INSTANCES=1      #每个worker从节点的实例（可选配置）

export JAVA_HOME=/usr/java/jdk1.8.0_111

export SCALA_HOME=/usr/local/scala-2.12.4

export HADOOP_HOME=/usr/local/hadoop-2.7.6

export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop

export YARN_CONF_DIR=$HADOOP_HOME/etc/Hadoop

export SPARK_PID_DIR=/usr/local/spark-2.3.0/pids

export SPARK_LOCAL_DIR=/usr/local/spark-2.3.0/tmp

export LD_LIBRARY_PATH=$HADOOP_HOME/lib/native

export SPARK_DAEMON_JAVA_OPTS="-Dspark.deploy.recoveryMode=ZOOKEEPER -Dspark.deploy.zookeeper.url=node1:2181,node2:2181,node3:2181 -Dspark.deploy.zookeeper.dir=/spark"

vi $SPARK_HOME/sbin/start-master.sh

SPARK_MASTER_WEBUI_PORT=8070

cp $HADOOP_HOME/etc/hadoop/hdfs-site.xml $SPARK_HOME/conf/

vi $HADOOP_HOME/etc/hadoop/log4j.properties

log4j.logger.org.apache.hadoop.util.NativeCodeLoader=ERROR

scp -r $HADOOP_HOME/etc/hadoop/log4j.properties node2:$HADOOP_HOME/etc/hadoop/

scp -r $HADOOP_HOME/etc/hadoop/log4j.properties node3:$HADOOP_HOME/etc/hadoop/

# ==================================================================node1

scp -r $SPARK_HOME node2:/usr/local/

scp -r $SPARK_HOME node3:/usr/local/

# ==================================================================node2 node3

# 使环境变量生效

source /etc/profile

# 查看配置结果

echo $FLUME_HOME

# 启动

# ==================================================================node1 node2 node3
# 先启动zookeeper 和 hdfs

zkServer.sh start

zkServer.sh status

# ==================================================================node1

zkCli.sh

create /spark ''

$HADOOP_HOME/sbin/start-all.sh

$HADOOP_HOME/sbin/hadoop-daemon.sh start zkfc

# ==================================================================node2

$HADOOP_HOME/sbin/hadoop-daemon.sh start zkfc

$HADOOP_HOME/sbin/yarn-daemon.sh start resourcemanager

# 启动spark

# ==================================================================node1

$SPARK_HOME/sbin/start-master.sh

$SPARK_HOME/sbin/start-slaves.sh

# ==================================================================node2

$SPARK_HOME/sbin/start-master.sh

# ==================================================================node1

# 获取安全模式的状态:

hdfs dfsadmin -safemode get

# 安全模式打开

# hdfs dfsadmin -safemode enter

# 安全模式关闭

# hdfs dfsadmin -safemode leave

hdfs dfs -mkdir -p /spark/eventslog

$SPARK_HOME/bin/spark-shell

# http://node1:4040

# http://node1:8070

> :quit

# test

# 需保证hdfs上该目录不存在

# hdfs dfs -mkdir -p /spark/output

# hdfs dfs -rmr /spark/output

vi ~/sparkdata.txt

hello man

what are you doing now

my running

hello

kevin

hi man

hdfs dfs -mkdir -p /usr/file/input

hdfs dfs -put ~/sparkdata.txt /usr/file/input

hdfs dfs -ls /usr/file/input

val file1 = sc.textFile("file:///root/sparkdata.txt")

val count1=file1.flatMap(line => line.split(" ")).map(word => (word,1)).reduceByKey(_+_)

count1.saveAsTextFile("hdfs://node1:8020/spark/output1")

val file=sc.textFile("hdfs://appcluster/usr/file/input/sparkdata.txt")

val count=file.flatMap(line => line.split(" ")).map(word => (word,1)).reduceByKey(_+_)

count.saveAsTextFile("hdfs://node1:8020/spark/output")

hdfs dfs -ls /spark/output

hdfs dfs -cat /spark/output/part-00000

# stop已经启动的进程

# ==================================================================node1

$SPARK_HOME/sbin/stop-slaves.sh

$SPARK_HOME/sbin/stop-master.sh

$HADOOP_HOME/sbin/stop-all.sh

# ==================================================================node1 node2 node3

# 停止 zookeeper

zkServer.sh stop

# ==================================================================node2

$HADOOP_HOME/sbin/yarn-daemon.sh stop resourcemanager

$HADOOP_HOME/sbin/hadoop-daemon.sh stop zkfc

# ==================================================================node1

$HADOOP_HOME/sbin/hadoop-daemon.sh stop zkfc

shutdown -h now

# 快照 spark

hadoop生态搭建（3节点）-10.spark配置的更多相关文章

hadoop生态搭建（3节点）
软件:CentOS-7 VMware12 SSHSecureShellClient shell工具:Xshell 规划 vm网络配置 01.基础配置 02.ssh配置 03.zookeep ...
hadoop生态搭建（3节点）-08.kafka配置
如果之前没有安装jdk和zookeeper,安装了的请直接跳过 # https://www.oracle.com/technetwork/java/javase/downloads/java-arch ...
hadoop生态搭建（3节点）-04.hadoop配置
如果之前没有安装jdk和zookeeper,安装了的请直接跳过 # https://www.oracle.com/technetwork/java/javase/downloads/java-arch ...
hadoop生态搭建（3节点）-13.mongodb配置
# 13.mongodb配置_副本集_认证授权# ==================================================================安装 mongod ...
hadoop生态搭建（3节点）-15.Nginx_Keepalived_Tomcat配置
# Nginx+Tomcat搭建高可用服务器名称预装软件 IP地址Nginx服务器 Nginx1 192.168.6.131Nginx服务器 Nginx2 192.168.6.132 # ===== ...
hadoop生态搭建（3节点）-09.flume配置
# http://archive.apache.org/dist/flume/1.8.0/# ===================================================== ...
hadoop生态搭建（3节点）-11.storm配置
# http://archive.apache.org/dist/storm/apache-storm-1.1.0/ # ======================================= ...
hadoop生态搭建（3节点）-12.rabbitmq配置
# 安装需要相关包# ==================================================================node1 node2 node3 yum ...
hadoop生态搭建（3节点）-14.redis配置
# ==================================================================规划node1 redis:7000 7001 192.168. ...

随机推荐

csdn中使用Git的一些注意问题
1.生成的密钥必须在当前用户文档目录下的.ssh文件夹.----否则不行 2.生成的密钥文件命名---必须命名为id_ras文件----否则不行
STL算法分类记忆
STL算法主要是我们强大的标准库中以迭代器或数值或函数对象为参数预先定义好的一系列算法操作. 在STL算法分类中首先要提的就是两个普遍存在的后缀: _if _copy 其中这两个后缀的作用分别是:一. ...
windows下安装jekyll
jekyll在其官方网站上说并不建议在windows操作系统安装,可是我们已经在windows环境下操作比较习惯了,而安装linux或mac的成本又比较高.因此,虽然在windows安装jekyll的 ...
nginx 开启gzip压缩--字符串压缩比率很牛叉
刚刚给博客加了一个500px相册插件,lightbox引入了很多js文件和css文件,页面一下子看起来非常臃肿,所以还是把Gzip打开了. 环境:Debian 6 1.Vim打开Nginx配置文件 v ...
QT的键值对应关系看完开发节省时间哈哈
http://blog.csdn.net/wangjieest/article/details/8283656
Struts2学习-Ioc学习-spring
1.面向对象写法(带着面向过程的思维)电脑 computer = new 电脑(); [电脑代码中 new 打印机()]computer.打印文本("hello 140"); 电脑 ...
shell-day1
shell概述:这里说的是命令行shell,例如"bash/sh/ksh/csh"(Unix/Linux系统).cmd.exe命令提示字符(windwos系统),这里主要介绍Uni ...
第一周 day1 Python学习笔记
为什么要学习Python? Python擅长的领域 1. python2.x中不支持中文编码,默认编码格式为ASCII码,而python3.x中支持Unicode编码,支持中文,变量名可以为中文,如: ...
My SQL 和SQL Server区别
MySQL 与SQL Server区别今天了解了二者区别,整理网上查阅资料,总结列举如下: MSSQL == SQL server 是sybase与微软合作时期的产物. 对于程序开发人员而言,目前使 ...
1874 football game(三分法and method to compute the area of trianngle)
FInd the max area. 1. 三分法 2. NAN (not comparable with number) http://acm.timus.ru/problem.aspx?space ...

hadoop生态搭建（3节点）-10.spark配置

hadoop生态搭建（3节点）-10.spark配置的更多相关文章

随机推荐

热门专题