spark本地环境的搭建到运行第一个spark程序
搭建spark本地环境
搭建Java环境
(1)到官网下载JDK
官网链接:https://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html
(2)解压缩到指定的目录
>sudo tar -zxvf jdk-8u91-linux-x64.tar.gz -C /usr/lib/jdk //版本号视自己安装的而定
(3)设置路径和环境变量
>sudo vim /etc/profile
在文件的最后加上
export JAVA_HOME=/usr/lib/jdk/jdk1..0_91
export JRE_HOME=${JAVA_HOME}/jre
export CLASSPATH=.:${JAVA_HOME}/lib:${JRE_HOME}/lib
export PATH=${JAVA_HOME}/bin:$PATH
(4)让配置生效
source /etc/profile
(5)验证安装是否成功
~$ java -version
java version "1.8.0_181"
Java(TM) SE Runtime Environment (build 1.8.0_181-b13)
Java HotSpot(TM) -Bit Server VM (build 25.181-b13, mixed mode)
安装Scala
(1)到官网下载安装包
官网链接:https://www.scala-lang.org/download/
(2)解压缩到指定目录
sudo tar -zxvf scala-2.11..tgz -C /usr/lib/scala //版本号视自己安装的而定
(3)设置路径和环境变量
>sudo vim /etc/profile
在文件最后加上
export SCALA_HOME=/usr/lib/scala/scala-2.11. //版本号视自己安装的而定
export PATH=${SCALA_HOME}/bin:$PATH
(4)让配制生效
source /etc/profile
(5)验证安装是否成功
:~$ scala
Welcome to Scala 2.12. (Java HotSpot(TM) -Bit Server VM, Java 1.8.0_181).
Type in expressions for evaluation. Or try :help. scala>
安装Spark
(1)到官网下载安装包
官网链接:http://spark.apache.org/downloads.html
(2)解压缩到指定目录
sudo tar -zxvf spark-1.6.-bin-hadoop2..tgz -C /usr/lib/spark //版本号视自己安装的而定
(3)设置路径和环境变量
>sudo vim /etc/profile
在文件最后加上
export SPARK_HOME=/usr/lib/spark/spark-1.6.-bin-hadoop2.
export PATH=${SPARK_HOME}/bin:$PATH
(4)让配置生效
source /etc/profile
(5)验证安装是否成功
:~$ cd spark-1.6.-bin-hadoop2.
:~/spark-1.6.-bin-hadoop2.$ ./bin/spark-shell
Using Spark's default log4j profile: org/apache/spark/log4j-defaults.properties
Setting default log level to "WARN".
To adjust logging level use sc.setLogLevel(newLevel). For SparkR, use setLogLevel(newLevel).
// :: WARN NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
// :: WARN Utils: Your hostname, pxh resolves to a loopback address: 127.0.1.1; using 10.22.48.4 instead (on interface wlan0)
// :: WARN Utils: Set SPARK_LOCAL_IP if you need to bind to another address
// :: WARN ObjectStore: Failed to get database global_temp, returning NoSuchObjectException
Spark context Web UI available at http://10.22.48.4:4040
Spark context available as 'sc' (master = local[*], app id = local-).
Spark session available as 'spark'.
Welcome to
____ __
/ __/__ ___ _____/ /__
_\ \/ _ \/ _ `/ __/ '_/
/___/ .__/\_,_/_/ /_/\_\ version 2.2.
/_/ Using Scala version 2.11. (Java HotSpot(TM) -Bit Server VM, Java 1.8.0_181)
Type in expressions to have them evaluated.
Type :help for more information.
安装sbt
(1)到官网下载安装包
官网链接:https://www.scala-sbt.org/download.html
(2)解压缩到指定目录
tar -zxvf sbt-0.13..tgz -C /usr/local/sbt
(3)在/usr/local/sbt 创建sbt脚本并添加以下内容
$ cd /usr/local/sbt
$ vim sbt
# 在sbt文本文件中添加如下信息:
BT_OPTS="-Xms512M -Xmx1536M -Xss1M -XX:+CMSClassUnloadingEnabled -XX:MaxPermSize=256M"
java $SBT_OPTS -jar /usr/local/sbt/bin/sbt-launch.jar "$@"
(4)保存后,为sbt脚本增加执行权限
$ chmod u+x sbt
(5)设置路径和环境变量
>sudo vim /etc/profile
在文件最后加上
export PATH=/usr/local/sbt/:$PATH
(6)让配置生效
source /etc/profile
(7)验证安装是否成功
$ sbt sbt-version
//如果这条命令运行不成功请改为以下这条 >sbt sbtVersion
$ sbt sbtVersion
Java HotSpot(TM) -Bit Server VM warning: ignoring option MaxPermSize=256M; support was removed in 8.0
[info] Loading project definition from /home/pxh/project
[info] Set current project to pxh (in build file:/home/pxh/)
[info] 1.2.
编写Scala应用程序
(1)在终端创建一个文件夹sparkapp作为应用程序根目录
cd ~
mkdir ./sparkapp
mkdir -p ./sparkapp/src/main/scala #创建所需的文件夹结构
(2)./sparkapp/src/main/scala在建立一个SimpleApp.scala的文件并添加以下代码
import org.apache.spark.SparkContext
import org.apache.spark.SparkContext._
import org.apache.spark.SparkConf object SimpleApp {
def main(args:Array[String]){
val logFile = "file:///home/pxh/hello.ts"
val conf = new SparkConf().setAppName("Simple Application")
val sc = new SparkContext(conf)
val logData = sc.textFile(logFile,).cache()
val numAs = logData.filter(line => line.contains("a")).count()
println("Lines with a: %s".format(numAs))
}
}
(3)添加该独立应用程序的信息以及与Spark的依赖关系
vim ./sparkapp/simple.sbt
在文件中添加如下内容
name:= "Simple Project"
version:= "1.0"
scalaVersion :="2.11.8"
libraryDependencies += "org.apache.spark"%% "spark-core" % "2.2.0"
(4)检查整个应用程序的文件结构
cd ~/sparkapp
find .
文件结构如下
.
./simple.sbt
./src
./src/main
./src/main/scala
./src/main/scala/SimpleApp.scala
(5)将整个应用程序打包成JAR(首次运行的话会花费较长时间下载依赖包,请耐心等待)
sparkapp$ /usr/local/sbt/sbt package
Java HotSpot(TM) -Bit Server VM warning: ignoring option MaxPermSize=256M; support was removed in 8.0
[info] Loading project definition from /home/pxh/sparkapp/project
[info] Loading settings for project sparkapp from simple.sbt ...
[info] Set current project to Simple Project (in build file:/home/pxh/sparkapp/)
[success] Total time: s, completed -- ::
(6)将生成的jar包通过spark-submit提交到Spark中运行
:~$ /home/pxh/spark-2.2.-bin-hadoop2./bin/spark-submit --class "SimpleApp" /home/pxh/sparkapp/target/scala-2.11/simple-project_2.-1.0.jar >& | grep "Lines with a:"
Lines with a:
END........
spark本地环境的搭建到运行第一个spark程序的更多相关文章
- Spark认识&环境搭建&运行第一个Spark程序
摘要:Spark作为新一代大数据计算引擎,因为内存计算的特性,具有比hadoop更快的计算速度.这里总结下对Spark的认识.虚拟机Spark安装.Spark开发环境搭建及编写第一个scala程序.运 ...
- 搭建java开发环境、使用eclipse编写第一个java程序
搭建java开发环境.使用eclipse编写第一个java程序 一.Java 开发环境的搭建 1.首先安装java SDK(简称JDK). 点击可执行文件 jdk-6u24-windows-i586. ...
- 运行第一个ruby程序
0x00 安装 首先需要安装一个ruby的环境,ruby分为win.linux.macOS版本.不用系统安装方法略有差异,不在这进行讲解. 0x01 运行第一个ruby程序 我这里是win环境,打开命 ...
- 运行第一个Hadoop程序,WordCount
系统: Ubuntu14.04 Hadoop版本: 2.7.2 参照http://www.cnblogs.com/taichu/p/5264185.html中的分享,来学习运行第一个hadoop程序. ...
- 运行第一个python程序,python 变量,常量,注释
一.运行第一个python程序: print('Hello,world') 保存为.py文件 在cmd窗口: python3x:python py文件路径 回车 python2x:python p ...
- Spark环境的搭建与运行
Spark本地安装与配置 下载spark后解压,并cd到解压目录下 运行实例程序测试是否一切正常 ./bin/run-example org.apache.spark.examples.SparkPi ...
- F.I.S本地环境的搭建教程
一.准备开发环境: 1.安装JRE 2.安装nodejs 最好是msi文件,比较省事. 3.(如果是PHP项目)安装php. 首先下载php(我的是5.5.15版本,win7 64位系统) zip,然 ...
- [IOS]从零开始搭建基于Xcode7的IOS开发环境和免开发者帐号真机调试运行第一个IOS程序HelloWorld
首先这篇文章比较长,若想了解Xcode7的免开发者帐号真机调试运行IOS程序的话,直接转到第五部分. 转载请注明原文地址:http://www.cnblogs.com/litou/p/4843772. ...
- 跟哥一起学python(2)- 运行第一个python程序&环境搭建
本节的任务,是完成我们的第一个python程序,并搭建好学习python的环境. 建议通过视频来学习本节内容: 查看本节视频 再次看看上一节提到的那张图,看看作为高级编程语言,我们如何编程. 首先, ...
随机推荐
- VIM 乱码终极解决
原文链接:http://blog.163.com/mageng11@126/blog/static/1408083742012128105645169/ 关于vim乱码,这篇文章讲的很详细,mark一 ...
- KT_登录_流程图
一.需求 关于系统登录功能,需求如下:1.登录需要输入用户名.密码2.如果连续密码输入错误4次,则自动锁定账号5分钟(也就是说5分钟之内不能再登录) 请根据以上需求,画一个登录操作流程图 二.绘图 版 ...
- orcl数据库查询重复数据及删除重复数据方法
工作中,发现数据库表中有许多重复的数据,而这个时候老板需要统计表中有多少条数据时(不包含重复数据),只想说一句MMP,库中好几十万数据,肿么办,无奈只能自己在网上找语句,最终成功解救,下面是我一个实验 ...
- 汽车学习---汽车知识大全【all】
汽车驱动/发动机/大灯 侧方位停车和倒车入库技巧 手动挡车型 换档8大技巧 常见的掉头情况注意事项 最全的左转,右转,待转,掉头方法 开车技巧大汇总,尤其适合新手司机 汽车常识扫盲,不做“汽车小白”! ...
- 剑指offer 11二进制中1的个数
输入一个整数,输出该数二进制表示中1的个数.其中负数用补码表示. java版本: public class Solution { public int NumberOf1(int n) { Strin ...
- 安装zabbix3.4的过程(一)
目录 zabbix服务端安装(centos7.4) zabbix客户端安装 (centos6.9) 注释:本次安装为官方推荐的yum安装方式,如果需要编译安装,请查看下边的博文: 博文地址:https ...
- RAC数据库的RMAN备份异机恢复到单节点数据库
1.首先在rac环境用rman备份数据库.[oracle@rac1 admin]$ rman target /run{allocate channel c1 device type disk conn ...
- 获取URL网页信息
static string GetHtml(string url) {string strHTML = ""; WebClient myWebClient = new WebCli ...
- 使用Linux进行缓冲区溢出实验的配置记录
在基础的软件安全实验中,缓冲区溢出是一个基础而又经典的问题.最基本的缓冲区溢出即通过合理的构造输入数据,使得输入数据量超过原始缓冲区的大小,从而覆盖数据输入缓冲区之外的数据,达到诸如修改函数返回地址等 ...
- linux_bc命令
bc 命令: bc 命令是用于命令行计算器. 它类似基本的计算器. 使用这个计算器可以做基本的数学运算. 语法: 语法是 bc [命令开关]命令开关: -c 仅通过编译. ...