spark单机运行部署

环境预装

需要预先下载jdk和spark。机器使用centos6.6(推荐)。然后依次运行

[root@spark-master root]# cd /root

#安装必要的软件

[root@spark-master root]# yum install -y tar git curl wget

#下载jdk

[root@spark-master root]# wget --no-check-certificate --no-cookies --header "Cookie: oraclelicense=accept-securebackup-cookie"  http://download.oracle.com/otn-pub/java/jdk/8u91-b14/jdk-8u91-linux-x64.rpm

#安装jdk

[root@spark-master root]# rpm -ivh jdk-8u91-linux-x64.rpm

#下载spark

[root@spark-master root]# wget http://mirrors.hust.edu.cn/apache/spark/spark-1.6.2/spark-1.6.2-bin-hadoop2.6.tgz

#解压spark

[root@spark-master root]# tar xzvf spark-1.6.2-bin-hadoop2.6.tgz

配置

关闭selinux。setenfore 0。
通过hostname查看机器名，然后加入到/etc/hosts中。
配置/etc/profile。在文件最后添加export JAVA_HOME=/usr/java/jdk1.8.0_91。然后运行source /etc/profile使其生效。

运行spark服务

启动spark master服务

[root@spark-master root]# cd /root/spark-1.6.2-bin-hadoop2.6

[root@spark-master spark-1.6.2-bin-hadoop2.6]# ./sbin/start-master.sh

启动spark node服务

[root@spark-master root]# cd /root/spark-1.6.2-bin-hadoop2.6

[root@spark-master spark-1.6.2-bin-hadoop2.6]# ./sbin/start-slave.sh spark://node1:7077

node1为机器名。根据实际的机器名进行修改。

spark样例运行

通过pyspark进行运算

这里以统计/etc/profile的行数为例。

[root@spark-master root]# cd /root/spark-1.6.2-bin-hadoop2.6/bin

[root@spark-master bin]# ./pyspark --master local[2]

# 导入数据

>>> distFile = sc.textFile("/etc/profile")

# 统计行数

>>> distFile.count()

这里local[2]代表了在本地启动两个线程模拟node进行计算。如果搭建完成了本地的搭建，即可以使用./pyspark --master spark://node1:7077,从而使用本地的node进行计算。

任务提交

pyspark是使用交互的方式进行提交任务。当然也可以通过spark-submit进行提交。

首先创建test.py文件，文件内容如下：

from pyspark import SparkContext

sc = SparkContext("local", "Simple App")

distFile = sc.textFile("/etc/profile")

print distFile.count()

使用spark-submit提交任务。

[root@spark-master root]# cd /root/spark-1.6.2-bin-hadoop2.6

[root@spark-master spark-1.6.2-bin-hadoop2.6]# ./bin/spark-submit --master local[2] test.py

参考资料

spark单机部署及样例运行的更多相关文章

Kafka在Linux上安装部署及样例测试
Kafka是一个分布式的.可分区的.可复制的消息系统.它提供了普通消息系统的功能,但具有自己独特的设计.这个独特的设计是什么样的呢介绍 Kafka是一个分布式的.可分区的.可复制的消息系统.它提供了 ...
向peersim开火！P2P开火！（安装和样例运行）
根据导师的要求,这次的任务是要模拟一个类似BT网络的P2P网络,并实现一些算法,查了些资料,都说NS2对于P2P网络的模拟和支持都不好,基本没有模板可以用,而且效率很低,只能模拟几万个节点左右,看到挺 ...
spark mllib lda 中文分词、主题聚合基本样例
github https://github.com/cclient/spark-lda-example spark mllib lda example 官方示例较为精简在官方lda示例的基础上,给合 ...
【UNIX网络编程（三）】TCP客户/server程序演示样例
上一节给出了TCP网络编程的函数.这一节使用那些基本函数编写一个完毕的TCP客户/server程序演示样例. 该样例运行的过程例如以下: 1.客户从标准输入读入一行文本,并写给server. 2.se ...
C++的性能C#的产能?! - .Net Native 系列《三》：.NET Native部署测试方案及样例
之前一文<c++的性能, c#的产能?!鱼和熊掌可以兼得,.NET NATIVE初窥> 获得很多朋友支持和鼓励,也更让我坚定做这项技术的推广者,希望能让更多的朋友了解这项技术,于是先从官方 ...
Spark执行样例报警告：WARN scheduler.TaskSchedulerImpl: Initial job has not accepted any resources
搭建Spark环境后,调测Spark样例时,出现下面的错误:WARN scheduler.TaskSchedulerImpl: Initial job has not accepted any res ...
PHP初学者如何搭建环境，并在本地服务器（or云端服务器）运行自己的第一个PHP样例
页面底部有PHP代码样例供测试使用. 1.PHP开发,你需要什么? 1)开发代码的工具,可以用IDE名字叫做phpDesigner.当然也可以临时用记事本代替,记得文件扩展名为.php 2)服务器(本 ...
06、部署Spark程序到集群上运行
06.部署Spark程序到集群上运行 6.1 修改程序代码修改文件加载路径在spark集群上执行程序时,如果加载文件需要确保路径是所有节点能否访问到的路径,因此通常是hdfs路径地址.所以需要修改 ...
学好Spark/Kafka必须要掌握的Scala技术点（二）类、单例/伴生对象、继承和trait，模式匹配、样例类（case class）
3. 类.对象.继承和trait 3.1 类 3.1.1 类的定义 Scala中,可以在类中定义类.以在函数中定义函数.可以在类中定义object:可以在函数中定义类,类成员的缺省访问级别是:publ ...

随机推荐

为Pythonic论坛添加一个“专题”功能（续）
上篇博文<为Pythonic论坛添加一个“专题”功能>,在模板的层次上对发帖进行了限制.也就是根据用户是否拥有权限来决定是否显示发帖框. 但是自从这么“投机取巧”的写完模板后,整夜辗转反侧 ...
记录一下Fedora21下安装Foundation5遇到的问题[尚有遗留问题]
写在前面:之前安装过了gem,所以下面的步骤没有这一过程,再有就是忘记哪一步需要ruby中的一个.h文件.可以使用如下命令解决 sudo yum install ruby-devel ------ S ...
webBrowser 参数设置
//禁用脚本错误等类似的窗口信息 this.webBrowser1.ScriptErrorsSuppressed = true; //禁用右键菜单 this.webBrowser1.IsWebBrow ...
Android总结的基本机制监控事件
研究上午Android底层机制事件监视器,例如下面的摘要: 内核驱动监控硬件状态和行为,由uevent机制将事件发送到用户空间: 通过用户空间UeventObserver从内核监控uevent,处理. ...
数据类型 text 和 varchar 在 add 运算符中不兼容
原文:数据类型 text 和 varchar 在 add 运算符中不兼容在SQL Server2005中,使用类似下面的Update语句: 1 UPDATE tb_SmsBlacklist SET ...
Js Date泣血整理
原文:Js Date泣血整理 JS Date 对象用于处理日期和时间. 创建 Date 对象的语法: var myDate=new Date() Date 对象会自动把当前日期和时间保存为其初始值. ...
【工作笔记四】去掉a标签超链接的虚线框的方法
a{ blr:expression(this.onFocus=this.blur()); /* IE Opera */ outline:none; /* FF Opera */ } a:focus{ ...
Javascript Array API
JS数组对象提供了很多API方法,由于前段时间要用到某一些方法,但是突然一时又想不起来该怎么用了,上网找有很多资料都不全,所以就自己整理了一篇,完全是自己写的的JS,只是复制到这里来了 ,要用到的朋友 ...
VS2012下systemC配置
一.编译System库 1.下载SystemC library source code 到http://www.systemc.org注册会员账号后,即可下载SystemC ...
CodeRush配置Nunit使用
Web:http://www.nunit.org/ 配置和DevExpress的CodeRush Install-Package NUnit 下载Nunit后设置CodeRush目录,如下图: 下面 ...

spark单机部署及样例运行