Windows下Spark单机环境配置
1、 环境配置
a) java环境配置:
JDK版本为1.7,64位;
环境变量配置如下:
JAVA_HOME为JDK安装路径,例如D:\software\workSoftware\JAVA
在path中添加“%JAVA_HOME%\bin;%JAVA_HOME%\jre\bin;”
在CLASSPATH中添加“.;%JAVA_HOME%\lib\dt.jar;%JAVA_HOME%\lib\tools.jar;”
b) scala环境配置
scala版本为2.10,因为Spark 1.6.0用的是这个版本;
SCALA_HOME为scala安装路径,例如D:\software\workSoftware\Scala
在path中添加“%scala_Home%\bin;%scala_Home%\jre\bin;”
在CLASSPATH中添加“.;%scala_Home%\bin;%scala_Home%\lib\dt.jar;%scala_Home%\lib\tools.jar.;”
c) Hadoop下载和配置
Hadoop版本为2.6.0 or upper,我的是2.6.3
下载地址:http://apache.fayea.com/hadoop/common/hadoop-2.6.3/hadoop-2.6.3.tar.gz
下载后解压
另下载一个:winutils.exe,这个百度既有;
下载后,把winutils.exe放在bin目录下;
配置 HADOOP_HOME,为解压地址,例如:“D:\software\workSoftware\hadoop-2.6.3”
在path中添加““%HADOOP_HOME\bin%;”
d) Spark下载和配置
下载页面:http://spark.apache.org/downloads.html
Spark release选择1.6.0
package type是:Pre-built for Hadoop 2.6 and later
我选择的mirror地址:http://apache.fayea.com/spark/spark-1.6.0/spark-1.6.0-bin-hadoop2.6.tgz
下载后解压
e) Scala IDE
然后,如果你有Scala编辑器的话,就可以愉快的去玩耍;我使用的是IntelliJ IDEA 15.0,自行安装一个scala的插件。
2、 第一个Spark程序
a) 新建一个scala的项目,添加Spark目录下\lib\ spark-assembly-1.6.0-hadoop2.6.0.jar到项目依赖的jar包;
b) 在src文件夹下新建一个scala script文件,测试你的第一个Spark程序吧
package com.iclick
/**
* Created by Shawn_Liu on 2016/3/4.
*/ import org.apache.log4j.{Level, Logger}
import org.apache.spark.{SparkContext, SparkConf}
import org.apache.spark.mllib.regression.LinearRegressionWithSGD
import org.apache.spark.mllib.regression.LabeledPoint
import org.apache.spark.mllib.linalg.Vectors
import org.apache.spark.sql.SQLContext
object WordCount {
def main(args: Array[String]) {
// 屏蔽不必要的日志显示终端上
Logger.getLogger("org.apache.spark").setLevel(Level.ERROR)
Logger.getLogger("org.eclipse.jetty.server").setLevel(Level.OFF)
val conf = new SparkConf().setAppName("wordcount").setMaster("local[4]")
val sc = new SparkContext(conf)
val sqlContext = new SQLContext(sc)
val data=sc.textFile("D:\\Download\\wordcount.txt")
data.map(word=>(word,1)).reduceByKey(_+_).foreach(println)
println("-----------------分割线--------")
data.map(_.toUpperCase()).map(word=>(word,1)).reduceByKey(_+_).foreach(println)
}
}
为了运行以上代码,我在D:\Download\下新建了一个文本文件wordcount.txt,输入了以下内容:
java
c++
c
SAS
sas
scala
python
PYHTHON
JAVA
java
Java
最终运行结果如下:
(c++,1)
(scala,1)
(sas,1)
(python,1)
(SAS,1)
(JAVA,1)
(c,1)
(JAva,1)
(java,2)
(PYHTHON,1)
-----------------分割线--------
(C++,1)
(C,1)
(SAS,2)
(SCALA,1)
(JAVA,4)
(PYTHON,1)
(PYHTHON,1)
Windows下Spark单机环境配置的更多相关文章
- windows下spark开发环境配置
http://www.cnblogs.com/davidwang456/p/5032766.html windows下spark开发环境配置 --本篇随笔由同事葛同学提供. windows下spark ...
- mac下spark单机环境配置笔记
1.安装scala 从http://www.scala-lang.org下载scala-2.11.7.tgz并解压缩 将解压缩的文件夹用mv指令移动到/usr/local/share mv [scal ...
- Spark 单机环境配置
概要 Spark 单机环境配置 JDK 环境配置 Spark 环境配置 python 环境配置 Spark 使用示例 示例代码 (order_stat.py) 测试用的 csv 文件内容 (order ...
- 【Objective-C】Windows下Objective-C开发环境配置
[Objective-C]Windows下Objective-C开发环境配置 ftp://ftpmain.gnustep.org/pub/gnustep/binaries/windows/ 最近打 ...
- windows下apache+https环境配置
windows下apache+https环境配置 转 https://www.cnblogs.com/sandaizi/p/7519370.html 1.修改配置文件conf/httpd.conf,去 ...
- Metabase在Windows下的开发环境配置
Metabase在Windows下的开发环境配置 */--> pre.src {background-color: #292b2e; color: #b2b2b2;} Metabase在Wind ...
- IntelliJ IDEA Windows下Spark开发环境部署
0x01 环境说明 本地 OS: windows 10 jdk: jdk1.8.0_121 scala: scala-2.11.11 IDE: IntelliJ IDEA ULTIMATE 2017. ...
- windows下python+flask环境配置详细图文教程
本帖是本人在安装配置python和flask环境时所用到的资源下载及相关的教程进行了整理罗列,来方便后面的人员,省去搜索的时间.如果你在安装配置是存在问题可留言给我. 首先罗列一下python+fla ...
- Windows下Hadoop编程环境配置指南
刘勇 Email: lyssym@sina.com 本博客记录作者在工作与研究中所经历的点滴,一方面给自己的工作与生活留下印记,另一方面若是能对大家有所帮助,则幸甚至哉矣! 简介 鉴于最近在研究 ...
随机推荐
- jquery each循环,
jquery each循环,要实现break和continue的功能: break----用return false; continue --用return ture; each()函数是基本上所有的 ...
- 在CentOS上搭建Storm集群
Here's a summary of the steps for setting up a Storm cluster: Set up a Zookeeper clusterInstall depe ...
- Angularjs学习笔记(三)----依赖注入
一.定义 如前所述,$scope对象被神秘的注入到了控制器中,实际上,这是因为控制器声明了它需要$scope,所以AngularJS才会创建并注入它.这套依赖管理系统可以这样总结:"为了正常 ...
- OAF 中的EO 和VO
EO :oracle.apps.fnd.framework.server.OAEntityImpl VO:oracle.apps.fnd.framework.server.OAViewRowImpl ...
- db2 常用函数
语法:VALUE(EXPRESSION1,EXPRESSION2) VALUE函数是用返回一个非空的值,当其第一个参数非空,直接返回该参数的值,如果第一个参数为空,则返回第一个参数的值. eg: -- ...
- Linux基础-目录结构
/:根目录 /bin:存放可执行程序(二进制文件) /etc:存放系统或者用户安装的软件所用的一些配置文件 /lib:操作系统运行时候使用的一些基本动态库 /media:自动挂载外设,会将外设挂载到该 ...
- Hibernate报错:org.hibernate.ObjectNotFoundException: No row with the given identifier exists 解决办法
报错信息: org.hibernate.event.internal.DefaultLoadEventListener onLoad INFO: HHH000327: Error performing ...
- CODE[VS] 1230 元素查找
1.题目戳这里 2.代码: #include<iostream> #include<algorithm> using namespace std; int n,m,a[1000 ...
- padding和margin的区别
简单来说,padding就是内边距,margin就是外边距如下图: margin和padding的区别用图表示为:
- tomcat(二)--tomcat结构
Tomcat结构及组件介绍 上面的层次结构在server.xml中有体现 <Server> <Service> <Connector> <Engine> ...