centos7 hdfs yarn spark 搭建笔记
1.搭建3台虚拟机
2.建立账户及信任关系
3.安装java
wget jdk-xxx rpm -i jdk-xxx
4.添加环境变量(全部)
export JAVA_HOME=/usr/java/jdk1..0_141
export JRE_HOME=$JAVA_HOME/jre
export PATH=$PATH:$JAVA_HOME/bin:$JAVA_HOME/jre/bin
export CLASSPATH=$CLASSPATH:.:$JAVA_HOME/lib:$JAVA_HOME/jre/lib
export HADOOP_HOME=/data/spark/bin/hadoop
export PATH=$PATH:$HADOOP_HOME/bin/:$HADOOP_HOME/sbin
export HADOOP_OPTS="-Djava.library.path=$HADOOP_HOME/lib/native"
export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop
export SPARK_HOME=/data/spark/bin/spark
export PATH=$PATH:$SPARK_HOME/bin
5.搭建hadoop
1>vi $HADOOP_HOME/etc/hadoop/hadoop-env.sh
export JAVA_HOME=/usr/java/jdk1..0_141
2>vi $HADOOP_HOME/etc/hadoop/core-site.xml
<configuration>
<property>
<name>fs.defaultFS</name>
<value>hdfs://10.0.0.5:9000</value>
</property>
<property>
<name>hadoop.tmp.dir</name>
<value>/data/spark/bin/hadoop/tmp</value>
</property>
</configuration>
3>vi $HADOOP_HOME/etc/hadoop/hdfs-site.xml
<configuration>
<property>
<name>dfs.namenode.name.dir</name>
<value>file:///data/spark/hdfs/name</value>
</property>
<property>
<name>dfs.datanode.data.dir</name>
<value>file:///data1/hdfs-ext,file:///data2/hdfs-ext,file:///data3/hdfs-ext</value>
</property>
<property>
<name>dfs.namenode.checkpoint.dir</name>
<value>/data/spark/hdfs/namesecondary</value>
</property>
<property>
<name>dfs.namenode.http-address</name>
<value>0.0.0.0:</value>
</property>
<property>
<name>dfs.namenode.secondary.http-address</name>
<value>0.0.0.0:</value>
</property>
<property>
<name>dfs.datanode.http.address</name>
<value>0.0.0.0:</value>
</property>
<property>
<name>dfs.namenode.datanode.registration.ip-hostname-check</name>
<value>false</value>
</property>
</configuration>
4>vi $HADOOP_HOME/etc/hadoop/yarn-site.xml
<configuration>
<property>
<name>yarn.resourcemanager.hostname</name>
<value>10.0.0.5</value>
</property>
<property>
<name>yarn.nodemanager.local-dirs</name>
<value>/data/spark/hdfs/nm-local-dir</value>
</property>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
<property>
<name>yarn.nodemanager.resource.memory-mb</name>
<value></value>
</property>
<property>
<name>yarn.nodemanager.resource.cpu-vcores</name>
<value></value>
</property>
<property>
<name>yarn.resourcemanager.webapp.address</name>
<value>0.0.0.0:</value>
</property>
<property>
<name>yarn.nodemanager.webapp.address</name>
<value>0.0.0.0:</value>
</property>
<property>
<name>yarn.nodemanager.pmem-check-enabled</name>
<value>false</value>
</property>
<property>
<name>yarn.nodemanager.vmem-check-enabled</name>
<value>false</value>
</property>
<property>
<name>yarn.nodemanager.vmem-pmem-ratio</name>
<value>5</value>
</property>
</configuration>
5>vi $HADOOP_HOME/etc/hadoop/slaves
10.0.0.5
10.0.0.6
10.0.0.7
6>拷贝hadoop文件到各个从机,并设置PATH
7>hdfs namenode格式化
hdfs namenode -format
8>启动hdfs并查看日志
start-dfs.sh
9>启动yarn并查看日志
start-yarn.sh
10>查看各节点进程情况,一定要看日志
jps
一定要看日志
11>测试并查看日志
cd /xxx
echo "this is a test for hdfs" > .txt
hadoop fs -mkdir /spark
hadoop fs -mkdir /spark/test
hadoop fs -appendToFile .txt hdfs://10.0.0.5:9000/spark/test/1.txt
hadoop fs -cat hdfs://10.0.0.5:9000/spark/test/1.txt
6.搭建spark
1>修改spark-env.sh
mv $SPARK_HOME/conf/spark-env.sh.template $SPARK_HOME/conf/spark-env.sh
vi $SPARK_HOME/conf/spark-env.sh
export SPARK_HOME=/data/spark/bin/spark
export JAVA_HOME=/usr/java/jdk1..0_141
export HADOOP_HOME=/data/spark/bin/hadoop
export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop
export YARN_CONF_DIR=$HADOOP_HOME/etc/hadoop
export SPARK_MASTER_IP=10.0.0.5
export SPARK_LOCAL_DIRS=/data/spark/bin/spark
export SPARK_LIBARY_PATH=.:$JAVA_HOME/lib:$JAVA_HOME/jre/lib:$HADOOP_HOME/lib/native
export SPARK_LOG_DIR=/data/spark/bin/spark/logs
2>修改spark-defaults.conf
mv $SPARK_HOME/conf/spark-defaults.conf.template $SPARK_HOME/conf/spark-defaults.conf
vi $SPARK_HOME/conf/spark-defaults.conf
spark.yarn.jars hdfs://10.0.0.5:9000/spark/jars/*
3>上传jars
cd $SPARK_HOME/jars
hadoop fs -mkdir /spark/jars
hadoop fs -put * hdfs://10.0.0.5:9000/spark/jars/
4>修改slave(没什么用)
mv $SPARK_HOME/conf/slaves.template $SPARK_HOME/conf/slaves
vi $SPARK_HOME/conf/slaves
10.0.0.5
10.0.0.6
10.0.0.7
5>单点交互测试
pyspark --master local[]
6>集群交互测试
pyspark --master yarn --deploy-mode client
7>建立测试脚本 vi test.py
from __future__ import print_function import sys
from random import random
from operator import add from pyspark.sql import SparkSession if __name__ == "__main__":
"""
Usage: pi [partitions]
"""
spark = SparkSession\
.builder\
.appName("PythonPi")\
.getOrCreate() lines = spark.sparkContext.textFile("hdfs://10.0.0.5:9000/spark/test/1.txt")
num = lines.count()
p_str = lines.first()
print("--------------------"+str(num)+"---------------------")
print("--------------------"+p_str+"---------------------") spark.stop()
8>单点任务测试
spark-submit --master local[] test.py
9>集群任务测试
spark-submit --master yarn --deploy-mode cluster test.py
centos7 hdfs yarn spark 搭建笔记的更多相关文章
- 基于服务器版centos7的Hadoop/spark搭建
前提说明: 1.Hadoop与spark是两个独立的框架,只安装spark也可独立运行,spark有自己的调度器(standalone模式): 2.在Hadoop的基础上安装spark就是为了使用ya ...
- 29.Hadoop之HDFS集群搭建笔记
0.修改IP,主机名,hosts文件 setup 修改网卡IP service network restart 重启网络服务使IP生效 ...
- centos7 hive + 远程mysql 搭建笔记
1.require:java环境,本地可用的hadoop,远程可访问的mysql 2.拷贝hive文件(hive-2.2.1) 3.设置环境变量 export HIVE_HOME=/data/spar ...
- Spark环境搭建(三)-----------yarn环境搭建及测试作业提交
配置好HDFS之后,接下来配置单节点的yarn环境 1,修改配置文件 文件 : /root/app/hadoop-2.6.0-cdh5.7.0/etc/hadoop/yarn-site-xml 插入 ...
- spark学习笔记总结-spark入门资料精化
Spark学习笔记 Spark简介 spark 可以很容易和yarn结合,直接调用HDFS.Hbase上面的数据,和hadoop结合.配置很容易. spark发展迅猛,框架比hadoop更加灵活实用. ...
- Spark SQL笔记
HDFS HDFS架构 1.Master(NameNode/NN) 对应 N个Slaves(DataNode/NN)2.一个文件会被拆分成多个块(Block)默认:128M例: 130M ==> ...
- 伪分布式Spark + Hive on Spark搭建
Spark大数据平台有使用一段时间了,但大部分都是用于实验而搭建起来用的,搭建过Spark完全分布式,也搭建过用于测试的伪分布式.现在是写一遍随笔,记录一下曾经搭建过的环境,免得以后自己忘记了.也给和 ...
- Spark学习笔记2(spark所需环境配置
Spark学习笔记2 配置spark所需环境 1.首先先把本地的maven的压缩包解压到本地文件夹中,安装好本地的maven客户端程序,版本没有什么要求 不需要最新版的maven客户端. 解压完成之后 ...
- Spark学习笔记3(IDEA编写scala代码并打包上传集群运行)
Spark学习笔记3 IDEA编写scala代码并打包上传集群运行 我们在IDEA上的maven项目已经搭建完成了,现在可以写一个简单的spark代码并且打成jar包 上传至集群,来检验一下我们的sp ...
随机推荐
- centos 6 和centos 7 系统下vnc配置
一. VNC 服务的大概介绍: VNC (Virtual Network Console)是虚拟网络控制台的缩写.它 是一款优秀的远程控制工具软件,由著名的 AT&T 的欧洲研究实验室开发的. ...
- Android 各个版本新特性
一.Android 4.x 新锁屏界面: Android4.0重新设计了锁屏幕UI,下方的解锁虚拟按键向周围发射出微光,轻轻拖动就可以解锁,比原来在UI上确实有很大的进步. 全新Widget排列: 主 ...
- 205. Isomorphic Strings (Map)
Given two strings s and t, determine if they are isomorphic. Two strings are isomorphic if the chara ...
- 问题2:css图片、文字居中
1. 文本或图片水平对齐:父元素中添加以下样式 text-align : center;2. 单行文字垂直对齐:父元素中添加以下样式 line-height : 父元素高度; 3.图片 ...
- spring cloud ribbon和feign的区别
spring cloud的Netflix中提供了两个组件实现软负载均衡调用:ribbon和feign. Ribbon 是一个基于 HTTP 和 TCP 客户端的负载均衡器 它可以在客户端配置 ribb ...
- 865. Smallest Subtree with all the Deepest Nodes 有最深节点的最小子树
[抄题]: Given a binary tree rooted at root, the depth of each node is the shortest distance to the roo ...
- Bootstrap(3) 表格与按钮
1.表格 基本格式,实现基本的表格样式 <table class="table"> <thead> <tr> <th>编号</ ...
- wheelView实现滚动选择 三方开源的封装控件 spannableString autofitTextView、PinnedSectionListView SwipeListView等等
wheelView多用于popupwindow用来滚动选择条目 github上的开源三方控件 spannableString autofitTextView.PinnedSectionLi ...
- @JsonView 简单介绍[z]
@JsonView是jackson json中的一个注解,Spring webmvc也支持这个注解. 这个注解的作用就是控制输入输出后的json. 假设我们有一个用户类,其中包含用户名和密码,一般情况 ...
- mybatis入门--#{}和${}的区别
我们知道,在mybatis中,sql语句是需要我们自己写的.跟在普通的sql不一样的是,我们在使用mybatis框架的时候,使用的占位符不是 ? 而是 #{} 有时候还会出现这个符号 ${} 这些符号 ...