python spark环境配置

在配置Hadoop之前，应该先做以下配置

1.更改主机名

首先更改主机名，目的是为了方便管理。

输入:hostname

　　查看本机的名称

　　使用 hostname 修改当前主机名。

　　 hostname test1

　　然后输入:vim /etc/sysconfig/network

　　修改主机名称

　　将HOSTNAME 的名称更改为你想要设置的名称

注:主机名称更改之后，要重启(reboot)才会生效。

输入:vim /etc/hosts

添加主机IP 和对应的主机名称，做映射。

注:在配置文件中使用主机名的话，这个映射必须做！

2.关闭防火墙

查看状态

firewall-cmd --state

　　关闭防火墙，方便外部访问。

　　CentOS 7版本以下输入:

　　#关闭防火墙

　　service iptables stop

　　CentOS 7 以上的版本输入：

　　systemctl stop firewalld.service

3.时间设置

　　输入:date

　　查看服务器时间是否一致，若不一致则更改

　　更改时间命令

　　date -s ‘MMDDhhmmYYYY.ss’

参考：https://blog.csdn.net/muyi_amen/article/details/62423649

1.tar -zxvf jdk-8u91...... -C ~/app

vi ~/.bash_profile

加上

source ~/.bash_profile

echo $JAVA_HOME #检查

2.tar -zxvf scala...... -C ~/app

vi ~/.bash_profile

加上

source ~/.bash_profile

echo $SCALA_HOME #检查

3.tar -zxvf hadoop-2.6.0...... -C ~/app

vi ~/.bash_profile

加上

source ~/.bash_profile

echo $HADOOP_HOME #检查

cd /root/app/hadoop-2.6.0-cdh5.7.0/etc/hadoop

vim hadoop-env.sh

加上

vim core-site.xml

将<configurarion></configuration>补充

fs.default.name 这是配置HDFS中节点的URL，在文件系统中，每一个节点都有自己的URL，通过URL才能在整个分布式系统中管理和查询到此节点。集群里面的每一台机器都需要知道NameNode的地址。DataNode结点会先在NameNode上注册，这样它们的数据才可以被使用。独立的客户端程序通过这个URI跟DataNode交互，以取得文件的块列表。

hadoop.tmp.dir 是hadoop文件系统依赖的基础配置，很多路径都依赖它。如果hdfs-site.xml中不配置namenode和datanode的存放位置，默认就放在这个路径中

kvm是主机名，9000是RPC通信端口

vim hdfs-site.xml

dfs.replication 它决定着系统里面的文件块的数据备份个数，此数值一般不大于从机的个数。

dfs.name.dir 是设置NameNode的数据存放的本地路径

dfs.data.dir 是设置DataNode的数据存放的本地路径

dfs.http.address是设置NameNode的tracker页面监听地址和端口

cp mapred-site.xml.template mapred-site.xml

vi mapred-site.xml

vi yarn-site.xml

node1为主机名

cd /root/app/hadoop-2.6.0-cdh5.7.0/bin

./hadoop namenode -format

检查下这里面里有没有多了东西了

cd /root/app/hadoop-2.6.0-cdh5.7.0/sbin

./sbin/start-all.sh 或者./sbin/start-dfs.sh # ./sbin/stop-all.sh(关闭集群)

(如果在~/.bash_profile加上HADOOP_HOME/sbin，就可以去掉sbin/)

如下图说明启动成功

免密登录

　　启动和停止 Hadoop 都会让你输入四次当前服务器的密码。因此我们需要配置免密码登录服务器。

　　1.ssh-keygen -t rsa　　

　　　　 ~/.ssh文件里会生成

　　2.cd ~/.ssh

　　　　 cat id_rsa.pub>>authorized_keys

　　　　就可以了，可以用ssh localhost测试下

4.tar -zxvf apache-maven-3.3.9-bin.tar.gz -C ~/app

vim ~/.bash_profile

source ~./bash_profile

mkdir ~/app/maven_repository

cd /root/app/apache-maven-3.3.9/conf

vim settings.xml

这一步是修改 The path to the local repository maven will use to store artifacts

mvn

就成功了

5.安装python3.6.5

下载pyton3.6.5 source release

配置python依赖环境

yum -y install zlib-devel bzip2-devel openssl-devel ncurses-devel sqlite-devel readline-devel tk-devel gdbm-devel db4_devel libpcap-devel xz-devel

tar -zxvf Python-3.6.5.tgz

cd Python-3.6.5

./configure --prefix=/root/app/python3

make && make install

配置路径

6.安装spark

https://archive.apache.org/dist/spark/spark-2.3.0/

　　#下载source code

　　#tar -zxvf spark-2.3.0.tgz

　　#cd /home/software/spark-2.3.0/dev

　　#./make-distribution.sh --name 2.6.0-cdh5.7.0 --tgz -Pyarn -Phadoop-2.6 -Phive -Phive-thriftserver -Dhadoop.version=2.6.0-cdh5.7.0

　　解压：

　　tar -zxvf spark-2.3.0-bin-hadoop2.6.tgz -C app/

　　配置到环境变量： export SPARK_HOME=/root/app/spark-2.3.0-bin-hadoop2.6 　　　　　　　　　　　　　　　　　export PATH=$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbin

　　测试：

　　运行一个简单的spark程序

　　 spark-shell

python spark环境配置的更多相关文章

Linux—CentOS7下python开发环境配置
CentOS7下python开发环境配置上一篇博客讲了如何在Centos7下安装python3(https://www.cnblogs.com/zivli/p/9937608.html),这一次配置 ...
python 开发环境配置
上篇文章配置了虚机基础环境,本篇文章介绍配置python开发环境配置YUM源使用国内yum源 mv /etc/yum.repos.d/CentOS-Base.repo /etc/yum.repos ...
centos7.0 安装日志--图文具体解释-python开发环境配置
centos7.0公布之后,就下载了everthing的DVD镜像.今天有时间,所以决定在vbox底下体验一番--- 上图: watermark/2/text/aHR0cDovL2Jsb2cuY3Nk ...
最简单的VScode Python 开发环境配置以及中文化
前置条件 Python 3.X(2020年了,建议使用Python3.X版本) 一.下载VSCode VSCode官方下载链接由于安装过程是中文界面,此处略过. 二.VSCode中文化不需要配置什 ...
基于Pycharm的Python开发环境配置
基于Pycharm的Python开发环境配置编辑于2020-11-18 Python安装双击桌面的Python3.x安装包. 勾选Add to path. 方便起见,选择Install now.下 ...
PyCharm Django Python 开发环境配置详细教程
PyCharm Django Python 开发环境配置详细教程 1. Python 下载及安装 (1)根据需要的版本去 Python 官网(https://www.python.org/downl ...
Selenium+Python的环境配置
因为项目的原因,最近较多的使用了UFT来进行自动化测试工作,半年没有使用Selenium了,于是在自己的电脑上重新配置了基于python3.x的selenium环境,配置过程大致如下: 1. Sele ...
windows下python+flask环境配置详细图文教程
本帖是本人在安装配置python和flask环境时所用到的资源下载及相关的教程进行了整理罗列,来方便后面的人员,省去搜索的时间.如果你在安装配置是存在问题可留言给我. 首先罗列一下python+fla ...
1.python+appium环境配置
环境部署本博客以32位的Windows 7操作系统为例介绍Appium+Python的环境搭建步骤 1.安装Node.js 访问 https://nodejs.org/en/download/,下载 ...

随机推荐

（转）Android 创建与解析XML—— Dom4j方式 .
转:http://blog.csdn.net/ithomer/article/details/7521605 1.Dom4j概述 dom4j is an easy to use, open sourc ...
Windows内存管理（3）--检查内存可用性，结构化异常处理和 ASSERT
1. 检查内存可用性在驱动程序开发中,对内存的操作要格外小心.如果某段内存是只读的,而驱动程序试图去写操作,会导致系统的崩溃. DDK提供了两个函数,帮助程序员在不知道某段内存是否可读写的 ...
LeetCode 183. Customers Who Never Order (从不订购的客户)
题目标签: 题目给了我们 Customers 和 Orders 两个表格,让我们找到从没订购过的客户. 首先从Orders 得到订购过的CustomerId,然后再去Customers 里找没有 ...
使用Devstack部署neutron网络节点
本文为minxihou的翻译文章,转载请注明出处Bob Hou: http://blog.csdn.net/minxihou JmilkFan:minxihou的技术博文方向是算法&Open ...
配置Dubbo Demo遇到的坑之一---找不到dubbo.xsd文件
原文地址:https://blog.csdn.net/qq_36654870/article/details/80603302 1.dubbo.xsd文件不能读取因为阿里http://code.al ...
Socket心跳包异常检测的C语言实现，服务器与客户端代码案例
在Socket心跳机制中,心跳包可以由服务器发送给客户端,也可以由客户端发送给服务器,不过比较起来,前者开销可能较大.本文实现的是由客户端给服务器发送心跳包,服务器不必返回应答包,而是通过判断客户在线 ...
Metasploit 使用MSFconsole接口
什么是MSFconsole? 该msfconsole可能是最常用的接口使用Metasploit框架(MSF).它提供了一个“一体化”集中控制台,并允许您高效访问MSF中可用的所有选项.MSFconso ...
Flutter 类似viewDidAppear 的任务处理
前言在任务之中 ,有些实时任务比较重的需求,需要在类似 iOS viewDidAppear 里面执行数据请求任务,如:上一个页面返回pop 后执行网络请求任务.在flutter中如何实现呢? 目前 ...
eclipse导出说明文档
选中项目--右键--Export--Java--Javadoc—Finish 1.为程序添加文档注释 2.选中项目--右键Export--Java--Javadoc--next, 3.next--在V ...
python对urlEncode进行解码
利用python自带的urlib进行编码和解码,没有什么问题.(https://www.hustyx.com/python/) 但如果是用url编码工具(http://tool.chinaz.com/ ...

python spark环境配置

python spark环境配置的更多相关文章

随机推荐

热门专题