实验室中搭建Spark集群和PyCUDA开发环境

1、安装CUDA

1.1安装前工作

1.1.1选取实验器材

实验中的每台计算机均装有双系统。选择其中一台计算机作为master节点，配置有GeForce GTX 650显卡，拥有384个CUDA核心。另外两台计算机作为worker节点，一个配置有GeForce GTX 650显卡，另外一个配置有GeForce GTX 750 Ti显卡，拥有640个CUDA核心。

在每台计算机均创建hadoop用户并赋予root权限，本文所有的操作都将在hadoop用户下进行。

1.1.2安装前准备

用以下命令来验证计算机有一个支持CUDA的GPU，只要型号存在于NVIDIA官网（https://developer.nvidia.com/cuda-gpus）就没问题：

$ lspci | grep -i nvidia

用以下命令验证有一个支持CUDA的Linux版本，主要是“x86_64”一项，需要是x86架构，64bit系统：

$ uname -m && cat /etc/*release

用以下命令验证系统中是否安装有gcc，Ubuntu14.04默认安装，没有的话手动安装，这个用来编译CUDA Toolkit：

$ gcc --version

系统中的内核头文件和开发包需要与系统内核版本保持一致，系统内核版本用以下命令确认：

$ uname –r

Ubuntu下安装对应内核版本的内核头文件和开发包的命令如下：

$ sudo apt-get install linux-headers-$(uname -r)

以下命令安装必要的库文件：

$ sudo apt-get update

$ sudo apt-get install build-essential

去NVIDIA官网（https://developer.nvidia.com/cuda-downloads）下载最新版本的RUN包，本实验用到的是cuda_7.5.18_linux.run，在Ubuntu系统环境下解压到/home/hadoop/文件路径下，解压命令如下：

$ sudo ./ cuda_7.5.18_linux.run –extract=/home/hadoop/

解压后在目的文件夹下生成三个文件，分别为驱动文件（NVIDIA-Linux-x86_64-352.39.run），CUDA安装包（cuda-linux64-rel-7.5.18-19867135.run），Samples包（cuda-samples-linux-7.5.18-19867135.run）。

1.2安装NVIDIA显卡驱动

1.2.1删除原有显卡驱动

可以通过以下命令删除Ubuntu自带的NVIDIA显卡驱动：

$ sudo apt-get remove nvidia*

$ sudo apt-get autoremove

1.2.2禁止其它显卡驱动运行

需要将Ubuntu集成的NVIDIA驱动加入黑名单，防止驱动冲突导致后期黑屏。具体地，通过修改/etc/modprobe.d/blacklist.conf文件：

$ sudo gedit /etc/modprobe.d/blacklist-nouveau.conf

在blacklist-nouveau.conf中写入：

blacklist nouveau

blacklist lbm-nouveau

options nouveau modeset=0

alias nouveau off

alias lbm-nouveau off

保存并退出，这样就已经禁止了其它显卡驱动。

或者，也可以通过以下两个命令来禁止显卡驱动：

$ echo options nouveau modeset=0 | sudo tee -a /etc/modprobe.d/nouveau-kms.conf

$ sudo update-initramfs -u

1.2.3重启计算机

重启计算机之后，通过Ctrl+Alt+F1(或者 F2 ~ F6) 切换到命令控制台，按照命令行提示输入计算机的用户名和密码，进入之后，用以下命令关闭桌面服务：

$ sudo stop lightdm

1.2.4安装驱动

在/home/hadoop/文件路径下，对已经解压好的驱动文件NVIDIA-Linux-x86_64-352.39.run，设置为可执行权限，并执行。

$ cd /home/hadoop/

$ sudo chmod +x NVIDIA-Linux-x86_64-352.39.run

$ sudo sh NVIDIA-Linux-*-346.35.run

按照屏幕上的提示执行下去即可，直到显示安装成功界面。

1.2.4重启计算机

运行以下命令保存新的NVIDIA配置：

$ sudo nvidia-xconfig

1.2.5驱动重装

如果安装失败，或者更换驱动版本，则需要卸载先前驱动，具体地：

重启计算机，按下Ctrl+Alt+F1(或者 F2 ~ F6) 切换到命令控制台，关闭桌面服务，将驱动文件所在目录定位到当前目录，通过以下命令卸载即可：

$ cd /home/hadoop/

$ sudo sh NVIDIA-Linux-x86_64-352.39.run --uninstall

通过以下操作删除先前配置的文件：

$ cd /etc/modprobe.d/

$ sudo rm blacklist-nouveau.conf nouveau-kms.conf

$ sudo update-initramfs –u

这样就成功卸载了安装的NVIDIA驱动，如果希望重装，按照上面的步骤再操作即可。可以通过重启计算机或者以下命令开启桌面服务：

$ sudo start lightdm

1.3安装CUDA

1.3.1 安装操作

在/home/hadoop/文件路径下有解压后的CUDA安装包cuda-linux64-rel-7.5.18-19867135.run，对它设置为可执行权限，并执行。

$ cd /home/hadoop/

$ sudo chmod +x cuda-linux64-rel-7.5.18-19867135.run

$ sudo ./cuda-linux64-rel-7.5.18-19867135.run

然后按照提示安装即可，我们选择默认的安装路径/usr/local/cuda-7.5。

1.3.2修改环境变量

安装CUDA之后，必须配置正确的环境变量才可以使用。具体地通过编辑~/.bashrc文件完成。具体操作如下：

$ sudo gedit ~/.bashrc

在~/.bashrc文件中添加下面内容：

export CUDA_ROOT=$CUDA_ROOT:/usr/local/cuda-7.5

export LD_LIBRARY_PATH=$LD_LIBRARY_PATH:/usr/local/cuda-7.5/lib64/

export PATH=$PATH:/usr/local/cuda-7.5/bin/

通过下面的操作来使得我们修改的环境变量生效：

$ source ~/.bashrc

1.4 安装CUDA Samples

Samples包中含有许多CUDA示例，可用来验证CUDA安装是否已经成功，通过下面的操作来完成Samples的安装：

$ cd /home/hadoop/

$ sudo chmod +x cuda-samples-linux-7.5.18-19867135.run

$ sudo ./cuda-samples-linux-7.5.18-19867135.run

本实验中选择的安装路径为默认安装路径/usr/local/cuda-7.5/samples。完成后就可以开始编译Sample文件。编译命令如下：

$ cd /usr/local/cuda-7.5/samples

$ sudo make

等待全部编译工作完成之后，开始进行验证操作。具体地：

$ cd /usr/local/cuda-7.5/samples/bin/x86_64/linux/release

$ ./deviceQuery

如果出现对应的显卡信息，就说明CUDA安装成功。

在三台计算机上分别执行相同的操作步骤，三台计算机的CUDA安装路径统一为/usr/local/cuda-7.5/，samples安装路径统一为/usr/local/cuda-7.5/samples，成功安装CUDA之后，再开始接下来的步骤。

2、安装PyCUDA。

2.1确保CUDA已经正确安装，并可以通过测试。需要设置$CUDA_ROOT为CUDA的安装路径，将$CUDA_ROOT/bin设置在$PATH中。

2.2通过以下命令安装 Boost C++ 库。

$ sudo apt-get install libboost-all-dev

2.3通过以下操作安装numpy

$ sudo apt-get install python-numpy

2.4安装必要的库操作

$ sudo apt-get install python-dev python-setuptools libboost-python-dev libboost-thread-dev -y

2.5在pycuda官网（https://pypi.python.org/pypi/pycuda）下载最新版本的PyCUDA安装包pycuda-2015.1.3.tar.gz到/usr/local/目录下，并解压。

$ cd /usr/local/

$ sudo tar xzvf pycuda-2015.1.3.tar.gz

2.6修改PyCUDA的配置文件，操作命令如下：

$ cd /usr/local/pycuda-2015.1.3

$ sudo ./configure.py --cuda-root=/usr/local/cuda-7.5 --cudadrv-lib-dir=/usr/lib/x86_64-linux-gnu --boost-inc-dir=/usr/include --boost-lib-dir=/usr/lib --boost-python-libname=boost_python --boost-thread-libname=boost_thread

2.7为避免找不到nvcc的路径，可以通过下面的命令进行编译安装：

$ sudo env PATH=$PATH make –j 4

$ sudo env PATH=$PATH python setup.py install

2.8安装完成后，可以通过测试pycuda-2015.1里面的例子来验证安装：

$ cd /usr/local/pycuda-2015.1.3/examples

$ python demo.py

如果出现正确的矩阵计算结果，则表示PyCUDA安装成功。

三台计算机均执行相同的操作，使得PyCUDA安装路径统一为/usr/local/pycuda-2015.1.3，确保PyCUDA安装成功之后，再开始接下来的操作。

3、搭建Hadoop和Spark集群

3.1搭建Hadoop

表一：搭建单机版Hadoop

关键步骤	操作命令	备注说明
创建hadoop用户组和用户,并给hadoop用户赋予root权限	$ sudo addgroup hadoop $ sudo adduser -ingroup hadoop hadoop $ sudo gedit /etc/sudoers	编辑sudoers文件，在root ALL=(ALL:ALL)下添加hadoop ALL=(ALL:ALL)
安装JDK	$ cd /usr/local $ sudo mkdir java $ sudo scp jdk-8u20-linux-x64.gz /usr/local/java/ $ sudo tar xzvf jdk-8u20-linux-x64.gz $ sudo gedit ~/.bashrc $ source ~/.bashrc $ java -version	编辑~/.bashrc文件，把JAVA_HOME、JRE_HOME路径加入其中，并将bin目录加入到PATH路径。最后显示出正确的java版本表示安装成功。
安装ssh服务	$ sudo apt-get install openssh-server $ sudo apt-get update $ ssh-keygen -t rsa -P "" $ cd ~/.ssh $ cat id_rsa.pub >> authorized_keys $ ssh localhost	这里配置的是ssh免密码登陆本机，需要联网
搭建Hadoop	$ sudo scp hadoop-2.6.0.tar.gz /usr/local/ $ sudo tar xzvf hadoop-2.6.0.tar.gz $ sudo mv hadoop-2.6.0 hadoop $ sudo chown -R hadoop:hadoop hadoop $ cd /usr/local/hadoop/etc/hadoop/ $ sudo gedit hadoop-env.sh $ sudo gedit yarn-env.sh $ sudo gedit slaves $ sudo gedit core-site.xml $ sudo gedit hdfs-site.xml $ sudo gedit mapred-site.xml $ sudo gedit yarn-site.xml $ sudo gedit ~/.bashrc $ source ~/.bashrc	解压hadoop安装包到指定文件路径，并编辑hadoop配置文件，最后通过编辑 ~/.bashrc文件修改环境变量
启动Hadoop	$ cd /usr/local/hadoop $ bin/hadoop namenode –format $ sbin/start-all.sh $ jps	格式化hadoop，然后启动，jps检查启动进程，验证安装

表一详细的列出了搭建单机版Hadoop过程中需要用到的操作命令，环境配置可以根据实际的集群资源状况合理设置，本实验中我们在三台机器上执行相同的配置，jdk安装路径统一为/usr/local/java/jdk1.8.0_20,Hadoop安装路径统一为/usr/local/hadoop。确保三台机器成功安装Hadoop之后，开始搭建分布式集群，主要由以下两个步骤：

3.1.1、对应主机名与IP

将集群中的主机名与IP一一对应，主要通过编辑/etc/hosts文件完成：

$ ifconfig #检查机器IP地址

$ sudo gedit /etc/hosts

编辑hosts文件，将主机名与IP一一对应,本实验中内容如下：

172.16.82.195 master

172.16.82.196 slave1

172.16.82.197 slave2

3.1.2、SSH集群免密码登录

搭建Hadoop集群时，需要集群间SSH免密码登录，这样集群工作过程中，互相访问就不用再输入密码，可以方便的互相传输数据进而处理数据。配置SSH免密码登录过程如下，这里以master免密码登录slave1为例进行详细说明，其他情况基本与此相同。

在master节点：先前配置单机版本时，已经在~/.ssh目录下生成了公钥和私钥，将生成的公钥复制到slave1节点上

$ cd ~/.ssh

$ scp id_rsa.pub hadoop@slave1:~/

在slave1节点：将拷贝过来的公钥追加到authorized_keys

$ cat id_rsa.pub >> ~/.ssh/authorized_keys

由于authorized_keys的权限需要是600。所以我们再执行以下操作：

$ sudo chmod 600 authorized_keys

在master节点首次登录slave1时要输入yes确认，这样就实现了master免密码登录slave1。

搭建完分布式集群之后，需要启动并测试，启动方法与单机版Hadoop一样，验证方法也类似，按照上述操作即可。

3.2搭建Spark集群

表二：搭建Spark集群

关键步骤	操作命令	备注说明
安装scala	$ cd /usr/local/ $ sudo mkdir scala $ sudo cp scala-2.10.4.tgz /usr/local/scala $ sudo tar -zxf scala-2.10.4.tgz $ sudo gedit ~/.bashrc $ source ~/.bashrc $ scala -version	解压scala安装包到指定路径下，编辑~/.bashrc文件，将SCALA_HOME路径加入其中，并将bin目录加入到PATH路径，显示出正确的scala版本说明安装成功。
安装Spark	$ cd /usr/local/ $ sudo mkdir spark $ sudo cp spark-1.6.0-bin-hadoop2.6.tgz /usr/local/spark/ $ sudo tar -zxf spark-1.6.0-bin-hadoop2.6.tgz $ sudo gedit ~/.bashrc $ source ~/.bashrc	解压spark安装包到指定路径，编辑~/.bashrc文件，将SPARK_HOME路径加入其中，并将bin目录加入到PATH路径。
配置Spark	$ cd /usr/local/spark/spark-1.6.0-bin-hadoop2.6/conf/ $ sudo cp spark-env.sh.template spark-env.sh $ sudo gedit spark-env.sh $ sudo cp slaves.template slaves $ sudo gedit slaves	根据实际集群配置conf目录下的文件
赋予权限	$ sudo chmod -R 777 spark	给Spark赋予权限

在三台机器上执行相同的操作，待全部安装成功，开始启动测试。先启动Hadoop，之后，通过Spark安装目录下的sbin中的start-all.sh脚本来启动Spark集群，通过jps检查启动的进程。也可以通过Spark自带的wordcount程序示例验证安装。

以上技术流程，为本人在实验室环境下亲测，希望能够给各位童鞋朋友带来一些help，可能有许多不足之处还请海涵。有什么学术问题欢迎与我交流！注：禁止抄袭。

实验室中搭建Spark集群和PyCUDA开发环境的更多相关文章

从0到1搭建spark集群---企业集群搭建
今天分享一篇从0到1搭建Spark集群的步骤,企业中大家亦可以参照次集群搭建自己的Spark集群. 一.下载Spark安装包可以从官网下载,本集群选择的版本是spark-1.6.0-bin-hado ...
使用Docker搭建Spark集群（用于实现网站流量实时分析模块）
上一篇使用Docker搭建了Hadoop的完全分布式:使用Docker搭建Hadoop集群(伪分布式与完全分布式),本次记录搭建spark集群,使用两者同时来实现之前一直未完成的项目:网站日志流量分析 ...
如何基于Jupyter notebook搭建Spark集群开发环境
摘要:本文介绍如何基于Jupyter notebook搭建Spark集群开发环境. 本文分享自华为云社区<基于Jupyter Notebook 搭建Spark集群开发环境>,作者:apr鹏 ...
搭建spark集群
搭建spark集群 spark1.6和hadoop2.61.准备hadoop环境:2.准备下载包:3.解压安装包:tar -xf spark-1.6.0-bin-hadoop2.6.tgz4.修改配置 ...
docker容器中搭建kafka集群环境
Kafka集群管理.状态保存是通过zookeeper实现,所以先要搭建zookeeper集群 zookeeper集群搭建一.软件环境: zookeeper集群需要超过半数的的node存活才能对外服务 ...
03.搭建Spark集群(CentOS7+Spark2.1.1+Hadoop2.8.0)
接上一篇:https://www.cnblogs.com/yjm0330/p/10077076.html 一.下载安装scala 1.官网下载 2.spar01和02都建立/opt/scala目录,解 ...
从零开始学习docker之在docker中搭建redis(集群)
docker搭建redis集群 docker-compose是以多容器的方式启动,非常适合用来启动集群一.环境准备云环境:CentOS 7.6 64位二.安装docker-compose #需要 ...
大数据平台搭建-spark集群安装
版本要求 java 版本:1.8.*(1.8.0_60) 下载地址:http://www.oracle.com/technetwork/java/javase/downloads/jdk8-downl ...
Docker中搭建zookeeper集群
1.获取官方镜像从dockerhub获取官方的zookeeper镜像: docker pull zookeeper 2.了解镜像内容拉取完镜像后,通过 docker inspect zookeep ...

随机推荐

剑指offer系列40----机器人的运动范围
package com.exe8.offer; /** *[题目]地上有一个m行和n列的方格.一个机器人从坐标0,0的格子开始移动, * 每一次只能向左,右,上,下四个方向移动一格,但是不能进入行坐标 ...
CentOS7安装Oracle 11g R2 详细过程——零基础
本人linux小白,因项目原因必须要在linux下使用oracle便开始了探索.安装过程中遇到了种种问题与原因,今天整理一下方便后面的可以少走弯路. *注明: 安装过程注意当前错作的用户,执行./ru ...
黄聪：MYSQL5.6缓存性能优化my.ini文件配置方案
使用MYSQL版本:5.6 [client] …… default-character-set=gbk default-storage-engine=MYISAM max_connections=10 ...
使用jackson进行json数据格式转换
private static final JsonFactory factory = new JsonFactory(); StringWriter jsonOut = new StringWrite ...
PLSQL_查询SQL的执行次数和频率（案例）
2014-12-25 Created By BaoXinjian
HDU 1671 Phone List (Trie·数组实现)
链接:http://blog.csdn.net/acvay/article/details/47089657 题意给你一组电话号码判断其中是否有某个电话是另一个电话的前缀字典树的基础应用 ...
C# 中的事件含义介绍
AutoSizeChanged 当 AutoSize 属性的值更改时发生.(从 ButtonBase 继承.) BackColorChanged 当 BackColor 属性的值更改时发生.(从 ...
网页地图map
<map name="map"> <area shape="rect" coords="75,75,99,99" nohr ...
image和字节流之间的相互转换
//将图片转化为长二进制 public Byte[] SetImgToByte(string imgPath) { FileStream file = new FileStream(imgPath, ...
关于Rotation和Quaternion的一些问题
当我们使用unity的时候,面对一个物体,一个不可避免的问题就是:控制物体的旋转. unity的Transform组件的第二个属性Rotation为我们提供控制物体旋转的功能.在一个物体的Inspec ...

实验室中搭建Spark集群和PyCUDA开发环境

实验室中搭建Spark集群和PyCUDA开发环境的更多相关文章

随机推荐

热门专题