第一步:安装软件

        Spark 1.5.4:wget http://www.apache.org/dyn/closer.lua/spark/spark-1.5.2/spark-1.5.2-bin-hadoop2.6.tgz

        Hadoop 2.6.3:wget http://www.apache.org/dyn/closer.cgi/hadoop/common/hadoop-2.6.3/hadoop-2.6.3.tar.gz

        scala :apt-get install scala

第二步:配置环境变量

        运行/etc/profile

        export JAVA_HOME=/usr/lib/jvm/jdk1.7.0_80

        export PATH=$JAVA_HOME/bin:$JAVA_HOME/jre/BIN:${SCALA_HOME}/bin:${SPARK_HOME}/bin:/home/supermap/program/hadoop-2.6.3/bin:$PATH

        export CLASSPATH=$CLASSPATH:.:$JAVA_HOME/lib:$JAVA_HOME/jre/lib

        export SCALA_HOME=/usr/lib/scala/scala-2.11.7

        export PATH=${SCALA_HOME}/bin:$PATH

        export SPARK_HOME=/program/spark-1.5.2-bin-hadoop2.6

        source /etc/profile

第三步:创建镜像

        通过OpenStack管理器依据配置好的虚拟机创建镜像。生成的镜像配置例如以下:     

        镜像概况信息
        ________________________________________

        名称        spark-hadoop

        ID            61055db5-598b-4f1a-98fa-d2cbbf305d0c

        状态        Active

        公有        False

        受保护的        False

        校验和        47acf7993101713aee17764802602941

        ________________________________________

        配置               4.4 GB

        容器格式        BARE

        磁盘格式        QCOW2

        最小磁盘        60.0GB

第四步:创建虚拟机

        基于创建的镜像,生成2台虚拟机,加上最開始用于创建镜像的1台,一共3台虚拟主机。名称分别为:

        spark_hadoop_master

        spark_hadoop_slave1

        spark_hadoop_slave2

        以下就能够開始做与创建Spark集群相关的操作了。

第五步:设置主机名

        1.在/etc/hostname中就改主机名,分别设置三台主机为master、slave1、slave2,并重新启动

         



        2.重新启动之后,分别设置三个节点etc/hosts,指定ip和主机名的相应关系。

        

        通过測试root@master:~# ssh slave1,在输入root用户password后能够登录。

第六步:改动ssh无password訪问

        首先开启root用户訪问权限

        1. 改动/etc/ssh/sshd-config文件。设置例如以下:

        2. PermitRootLogin yes

        3. PubkeyAuthentication yes

        4. PasswordAuthentication yes

        又一次启动ssh服务:service ssh restart

        再进行例如以下測试,能够免输入password登录了。

        

watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQv/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/Center">

第七步:配置Spark集群

        进入Spark的conf文件夹:

        

把spark-env.sh.template拷贝为spark-env.sh

        把slaves.template拷贝为slaves

vim打开spark-env.sh改动当中的内容。增加下面设置

export JAVA_HOME=/usr/lib/jvm/jdk1.7.0_80

        export SPARK_MASTER_IP=192.168.12.154

        export SPARK_WORKER_MEMORY=4g

        export SCALA_HOME=/usr/lib/scala/scala-2.11.7

        export HADOOP_CONF_DIR=/home/supermap/program/hadoop-2.6.3/etc/hadoop

SPARK_WORKER_MEMORY:制定的Worker节点可以最大分配给Excutors的内存大小,因为配置的虚拟机是4g内存,为了最大限度使用内存,这里设置4G。

        接下来配置slaves文件,把Workers节点都加入进去:

        

        这样的配置把master也作为一个Worker节点。

以上配置在master和slave1。slave2节点都做同样处理。

第八步:启动集群

        这里測试没有启动Hadoop集群。仅仅须要Spark集群进行启动就可以,在Spark文件夹下,执行sbin/start-all.sh就可以启动集群服务。



        最后通过訪问spark管理页面查看服务状态

        

GIS+=地理信息+云计算技术——Spark集群部署的更多相关文章

  1. Hadoop记录-Apache hadoop+spark集群部署

    Hadoop+Spark集群部署指南 (多节点文件分发.集群操作建议salt/ansible) 1.集群规划节点名称 主机名 IP地址 操作系统Master centos1 192.168.0.1 C ...

  2. Spark集群部署

    Spark是通用的基于内存计算的大数据框架,可以和hadoop生态系统很好的兼容,以下来部署Spark集群 集群环境:3节点 Master:bigdata1 Slaves:bigdata2,bigda ...

  3. Spark集群部署(standLone)模式

      安装部署: 1. 配置spark为1个master,2个slave的独立集群(Standlone)模式, 可以在VMWare中构建3台运行Ubuntu的机器作为服务器: master主机配置如下: ...

  4. SPARK安装三:SPARK集群部署

    使用2.3.0版本,因为公司生产环境是这个版本 一.下载安装 cd /opt wget https://archive.apache.org/dist/spark/spark-2.3.0/spark- ...

  5. 在Docker中从头部署自己的Spark集群

    由于自己的电脑配置普普通通,在VM虚拟机中搭建的集群规模也就是6个节点左右,再多就会卡的不行 碰巧接触了Docker这种轻量级的容器虚拟化技术,理论上在普通PC机上搭建的集群规模可以达到很高(具体能有 ...

  6. Spark standalone安装(最小化集群部署)

    Spark standalone安装-最小化集群部署(Spark官方建议使用Standalone模式)        集群规划:    主机        IP                    ...

  7. 使用docker安装部署Spark集群来训练CNN(含Python实例)

    使用docker安装部署Spark集群来训练CNN(含Python实例) http://blog.csdn.net/cyh_24/article/details/49683221 实验室有4台神服务器 ...

  8. 使用fabric解决百度BMR的spark集群各节点的部署问题

    前言 和小伙伴的一起参加的人工智能比赛进入了决赛之后的一段时间里面,一直在构思将数据预处理过程和深度学习这个阶段合并起来.然而在合并这两部分代码的时候,遇到了一些问题,为此还特意写了脚本文件进行处理. ...

  9. 大数据技术之_19_Spark学习_01_Spark 基础解析 + Spark 概述 + Spark 集群安装 + 执行 Spark 程序

    第1章 Spark 概述1.1 什么是 Spark1.2 Spark 特点1.3 Spark 的用户和用途第2章 Spark 集群安装2.1 集群角色2.2 机器准备2.3 下载 Spark 安装包2 ...

随机推荐

  1. Vmare虚拟机中的3种网络连接方式

    安装完虚拟机后,默认安装了两个虚拟网卡,VMnet1和VMnet8,其他的未安装(当然也可以手动安装其他的). 其中: VMnet1是host网卡,用于host方式连接网络的. VMnet8是NAT网 ...

  2. 年华利率n%

    年化利率12%指的是,在您出借的本金不减少的情况下,您一年后的利息将达到您出借本金的12%.也就是说,如果年化利率是12%,则每月您出借资金获得的利息是1%(12% / 12个月). 在有利网,您的投 ...

  3. c++ 十进制转二进制 代码实现

    我初中的时候就没搞清楚手动怎么算二进制 写这个代码的时候研究了好久百度 https://jingyan.baidu.com/article/597a0643614568312b5243c0.html ...

  4. Oracle中exit,return,continue

    记录exit和return的用法 exit用来跳出循环 loop IF V_KBP IS NULL THEN           EXIT;    END IF; end loop; return跳出 ...

  5. UI进阶 即时通讯之XMPP环境搭建

    内容中包含 base64string 图片造成字符过多,拒绝显示

  6. PS学习笔记(01)

    [1]PS,文件-脚本-删除所有的空图层.   [2]设计师与美工的区别? 设计在于有思路了再去找素材, 美工在于有素材后再去设计 (思路是在大量的设计上,才累计出来的.)   [3]如何知道一张图片 ...

  7. Leetcode 301.删除无效的括号

    删除无效的括号 删除最小数量的无效括号,使得输入的字符串有效,返回所有可能的结果. 说明: 输入可能包含了除 ( 和 ) 以外的字符. 示例 1: 输入: "()())()" 输出 ...

  8. C#通信学习(一)

    基础知识 TCP/IP:Transmission Control Protocol/Internet Protocol,传输控制协议/因特网互联协议,又名网络通讯协议.简单来说:TCP控制传输数据,负 ...

  9. ubuntu使用git提交github时,执行pull或者push命令要重新输入用户名和密码

    ubuntu使用git提交github时,执行pull或者push命令要重新输入用户名和密码: 1:问题现象: hlp@hlp:~/code/github_code/catch_imooc1$ git ...

  10. 牛客网暑期ACM多校训练营(第九场) A题 FWT

    链接:https://www.nowcoder.com/acm/contest/147/A来源:牛客网 Niuniu has recently learned how to use Gaussian ...