Ubuntu 14.10 下安装Spark

Spark 是一种与 Hadoop 相似的开源集群计算环境,不过最近非常火.下面介绍安装步骤.

1 安装scala

　　1.1 我选用的是2.11.4,下载地址http://www.scala-lang.org/download/

　　1.2 解压到文件夹

tar -xzvf scala-2.11..tgz

　　1.3 设置环境变量

sudo nano /etc/profile

export SCALA_HOME=/home/liucc/software/spark/scala-2.11.

export PATH=$PATH:$SCALA_HOME/bin

　　1.4 检查是否安装成功

scala -version

2 安装Spark

　　2.0 Spark编译的话，可以用MVN，SBT，和他自带的make-distribution.sh文件

sbt/sbt assembly -Phadoop-2.6 -Dhadoop.version=2.6. -Pyarn -Dyarn.version=2.6. -Pspark-ganglia-lgpl -Pkinesis-asl -Phive

mvn -Phadoop-2.6 -Dhadoop.version=2.6. -Pyarn -Dyarn.version=2.6. -Pspark-ganglia-lgpl -Pkinesis-asl -Phive -DskipTests clean package


./make-distribution.sh --tgz --name 2.6. -Pyarn -Phadoop-2.6 -Pspark-ganglia-lgpl -Phive -DskipTests

　　2.1 下载编译好的spark,我是看了这个博主写的http://www.aboutyun.com/thread-8160-1-1.html,我选的是hadoop2.2.0

下载预编译好的Spark, （32位、64都可以）

hadoop1安装包

链接：http://pan.baidu.com/s/1c0kZMLE

密码：d4om

hadoop2安装包

链接：http://pan.baidu.com/s/1kT3czFD

密码：elpg

2.2 解压到相应目录

tar -xzvf spark-1.0.-bin-hadoop2.tgz

　　2.3 设置SPARK_HOME

export SPARK_EXAMPLES_JAR=/home/liucc/software/spark/spark-1.0./examples/target/scala-2.11./spar$

export SPARK_HOME=/home/liucc/software/spark/spark-1.0.

　　备注:SPARK_EXAMPLES_JAR的设置是摘抄自pig2:这一步其实最关键，很不幸的是，官方文档和网上的博客，都没有提及这一点。我是偶然看到了这两篇帖子，Running SparkPi, Null pointer exception when running ./run spark.examples.SparkPi local，才补上了这一步，之前死活都无法运行SparkPi。

　　2.4 配置Spark,进入到conf目录下面,配置spark-env.sh文件

cp spark-env.sh.template spark-env.sh

nano spark-env.sh

export JAVA_HOME=/usr/dev/jdk1..0_51

export SCALA_HOME=/home/liucc/software/spark/scala-2.11.

　　2.5 至此配置完毕,可以启动试试,进入sprk目录,可以通过 http://localhost:8080/ 看到对应界面

sbin/start-master.sh

3 测试,下面在spark上运行第一个例子：与Hadoop交互的WordCount

　　3.1 将文件上传到hadoop中

　　3.2 进入spark-shell,进入spark根目录

bin/spark-shell

　　3.3 输入scala语句,不熟悉的话,可以去学习一下,有个公开课https://class.coursera.org/progfun-005,很不错

val file=sc.textFile("要统计的文件")

val count=file.flatMap(line=>line.split(" ")).map(word=>(word,)).reduceByKey(_+_)

count.collect()

　　如果没错的话会看到结果

　　3.4 可以将结果上传到hadoop

count.saveAsTextFile("要保存的目录")

---------------------------------------------------------------------------------------

　　完毕,当然,也可以在Eclipse 中用java测试,网上很多了

Ubuntu 14.10 下安装Spark的更多相关文章

Ubuntu 14.10 下安装Ganglia监控集群
关于 Ganglia 软件,Ganglia是一个跨平台可扩展的,高性能计算系统下的分布式监控系统,如集群和网格.它是基于分层设计,它使用广泛的技术,如XML数据代表,便携数据传输,RRDtool用于数 ...
Ubuntu 14.10 下安装java反编译工具 jd-gui
系统环境,Ubuntu 14.10 ,64位 1 下载JD-GUI,网址http://221.3.153.126/1Q2W3E4R5T6Y7U8I9O0P1Z2X3C4V5B/jd.benow.ca/ ...
Ubuntu 14.10 下安装伪分布式hive-0.14.0
本地独立模式,MySQL作为元数据库 1 安装环境准备 1.1 安装JDK,在安装hadoop时候已经安装了,参考http://www.cnblogs.com/liuchangchun/p/40972 ...
Ubuntu 14.10 下安装navicat
1 下载navicat,网址http://www.navicat.com.cn/download,我下载的是navicat111_premium_cs.tar.gz 2 解压到合适的位置 3 进入解压 ...
Ubuntu 14.10下安装深度音乐客户端
很多刚从windows系统投靠到ubuntu的机油,在听音乐时不是很舒心.毕竟ubuntu软件中心的很多影音软件都是国外的朋友编写的,所以很多时候国内的朋友用着很不舒服.今天给大家推荐的是国内开发者针 ...
Ubuntu 14.10 下安装rabbitvcs-版本控制
在Windows下用惯了TortoiseSVN这只小乌龟,到了Ubuntu下很不习惯命令行的SVN,于是经过一番寻找安装了RabbitVCS这款SVN图形化前端工具(官方网站:http://rabbi ...
Ubuntu 14.10 下安装伪分布式hdoop 2.5.0
折腾了一天,其间配置SSH时候出现了问题,误删了ssh-keygen相关文件,导致配置SSH彻底萎了,又重装了系统.... 采用伪分布式模式,即hadoop将所有进程运行于同一台主机上,但此时Hado ...
Ubuntu 14.10 下安装Synergy，不同电脑之间公用一套键盘鼠标
因为工作时候有多台电脑放在一起,如果每个用一套键盘鼠标很是不方便,所以希望能够不用电脑之间公用一套键盘鼠标. Synergy可以实现不同电脑之间公用一套键盘鼠标,并且支持简单的复制粘贴.很好用. 它还 ...
Ubuntu 14.10 下安装Sublime Text 3，注册码，中文输入法
1 下载Sublime Text 3,网址http://www.sublimetext.com/3 2 双击deb安装 3 因为需要需要付费,输入下面的注册码,下面的注册码,来自百度,亲测可行 Sub ...

随机推荐

css的标准模型和低版本的IE的盒子模型有什么不同？
1. css的盒子模型:外边距(margin).内边距(padding).边界(border).内容区(width和height) 标准的css盒子模型与低版本的ie盒子模型的不同:宽高不一样标准的 ...
如何在git上创建的本地仓库
一.安装git(在git) 二. 三.输入个人信息(代码提交者) git config --global user.name "xxxx" git config --global ...
结对第2次作业——WordCount进阶需求
作业题目链接队友链接 Fork的同名仓库的Github项目地址具体分工玮哥负责命令参数判断.单词权重统计,我只负责词组词频统计(emmmm). PSP表格预估耗时(分钟) 实际耗时(分钟) P ...
《DSP using MATLAB》Problem 6.10
代码: %% ++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++ %% Output In ...
走进 AQS 瞧一瞧看一看
并发中有一块很重要的东西就是AQS.接下来一周的目标就是它. 看复杂源码时,一眼望过去,这是什么?不要慌,像剥洋葱一样,一层层剥开(哥,喜欢"扒开"这个词). 参考资源: http ...
【BZOJ3527】【ZJOI2014】力
"FFT还不是随手写?"我终于能说这样的话了இwஇ 原题: 给出n个数qi,给出Fj的定义如下: 令Ei=Fi/qi,求Ei. FFT嘛,直接推公式然后就变成俩卷积了,FFT ...
ORM 之常用重点 ******
总体介绍orm>>点我单表查询api汇总如 distinc(),order_by() id__gt=1 id__inrange=[ 1,3 ] 左右都包含设置logg ...
Exclude the folders/files for indexing
如果你的项目有非常多的文件,目录,Eclipse 有一个很好的Resource Filter 可以把有某些特征的文件,目录不再进行索引.
一般化数值算法(accumluate,inner_product,partial_sum,adjacent_difference)
accumulate template<class InputIterator, class T> T accumulate( InputIterator _First, InputIte ...
JQury基础（一）样式篇
1 初识jQury 1.1 环境搭建 jQuery是一个JavaScript脚本库,不需要特别的安装,只需要我们在页面标签内中,通过 script 标签引入 jQuery 库即可. <head ...

Ubuntu 14.10 下安装Spark

Ubuntu 14.10 下安装Spark的更多相关文章

随机推荐

热门专题