spark1.3.1使用基础教程分类： B8_SPARK 2015-04-28 11:10 1651人阅读评论(0) 收藏

spark可以通过交互式命令行及编程两种方式来进行调用：
前者支持scala与python
后者支持scala、python与java

本文参考https://spark.apache.org/docs/latest/quick-start.html，可作快速入门

再详细资料及用法请见https://spark.apache.org/docs/latest/programming-guide.html

建议学习路径：

1、安装单机环境：http://blog.csdn.net/jediael_lu/article/details/45310321

2、快速入门，有简单的印象：本文http://blog.csdn.net/jediael_lu/article/details/45333195

3、学习scala

4、深入一点：https://spark.apache.org/docs/latest/programming-guide.html

5、找其它专业资料或者在使用中学习

一、基础介绍
1、spark的所有操作均是基于RDD(Resilient Distributed Dataset)进行的，其中R（弹性）的意思为可以方便的在内存和存储间进行交换。
2、RDD的操作可以分为2类：transformation 和 action，其中前者从一个RDD生成另一个RDD(如filter)，后者对RDD生成一个结果（如count)。

二、命令行方式
只要机器上有java与scala，spark无需任何安装、配置，就可直接运行，可以首先通过运行：

./bin/run-example SparkPi 10

检查是否正常，然后再使用下面介绍的shell来执行job。

1、快速入门
$ ./bin/spark-shell

（1）先将一个文件读入一个RDD中，然后统计这个文件的行数及显示第一行。
scala> var textFile = sc.textFile("/mnt/jediael/spark-1.3.1-bin-hadoop2.6/README.md")
textFile: org.apache.spark.rdd.RDD[String] = /mnt/jediael/spark-1.3.1-bin-hadoop2.6/README.md MapPartitionsRDD[1] at textFile at <console>:21

scala> textFile.count()
res0: Long = 98

scala> textFile.first();
res1: String = # Apache Spark

（2）统计包含spark的行数
scala> val linesWithSpark = textFile.filter(line => line.contains("Spark"))
linesWithSpark: org.apache.spark.rdd.RDD[String] = MapPartitionsRDD[2] at filter at <console>:23

scala> linesWithSpark.count()
res0: Long = 19

（3）以上的filter与count可以组合使用
scala> textFile.filter(line => line.contains("Spark")).count()
res1: Long = 19

2、深入一点
（1）使用map统计每一行的单词数量，reduce找出最大的那一行所包括的单词数量
scala> textFile.map(line => line.split(" ").size).reduce((a, b) => if (a > b) a else b)
res2: Int = 14

（2）在scala中直接调用java包
scala> import java.lang.Math
import java.lang.Math

scala> textFile.map(line => line.split(" ").size).reduce((a, b) => Math.max(a, b))
res2: Int = 14

（3）wordcount的实现
scala> val wordCounts = textFile.flatMap(line => line.split(" ")).map(word => (word, 1)).reduceByKey((a, b) => a + b)
wordCounts: org.apache.spark.rdd.RDD[(String, Int)] = ShuffledRDD[8] at reduceByKey at <console>:24

scala> wordCounts.collect()
res4: Array[(String, Int)] = Array((package,1), (For,2), (processing.,1), (Programs,1), (Because,1), (The,1), (cluster.,1), (its,1), ([run,1), (APIs,1), (computation,1), (Try,1), (have,1), (through,1), (several,1), (This,2), ("yarn-cluster",1), (graph,1), (Hive,2), (storage,1), (["Specifying,1), (To,2), (page](http://spark.apache.org/documentation.html),1), (Once,1), (application,1), (prefer,1), (SparkPi,2), (engine,1), (version,1), (file,1), (documentation,,1), (processing,,2), (the,21), (are,1), (systems.,1), (params,1), (not,1), (different,1), (refer,2), (Interactive,2), (given.,1), (if,4), (build,3), (when,1), (be,2), (Tests,1), (Apache,1), (all,1), (./bin/run-example,2), (programs,,1), (including,3), (Spark.,1), (package.,1), (1000).count(),1), (HDFS,1), (Versions,1), (Data.,1), (>...

3、缓存：将RDD写入缓存会大大提高处理效率
scala> linesWithSpark.cache()
res5: linesWithSpark.type = MapPartitionsRDD[2] at filter at <console>:23
scala> linesWithSpark.count()
res8: Long = 19

三、编码

scala代码，还不熟悉，以后再运行

import org.apache.spark.SparkContext
import org.apache.spark.SparkContext._
import org.apache.spark.SparkConf

object SimpleApp {
def main(args: Array[String]) {
    val logFile = "YOUR_SPARK_HOME/README.md" // Should be some file on your system
    val conf = new SparkConf().setAppName("Simple Application")
    val sc = new SparkContext(conf)
    val logData = sc.textFile(logFile, 2).cache()
    val numAs = logData.filter(line => line.contains("a")).count()
    val numBs = logData.filter(line => line.contains("b")).count()
    println("Lines with a: %s, Lines with b: %s".format(numAs, numBs))
}
}

spark1.3.1使用基础教程分类： B8_SPARK 2015-04-28 11:10 1651人阅读评论(0) 收藏的更多相关文章

【Solr专题之九】SolrJ教程分类： H4_SOLR/LUCENCE 2014-07-28 14:31 2351人阅读评论(0) 收藏
一.SolrJ基础 1.相关资料 API:http://lucene.apache.org/solr/4_9_0/solr-solrj/ apache_solr_ref_guide_4.9.pdf:C ...
【Lucene4.8教程之二】索引 2014-06-16 11:30 3845人阅读评论(0) 收藏
一.基础内容 0.官方文档说明 (1)org.apache.lucene.index provides two primary classes: IndexWriter, which creates ...
百度编辑器UEditor ASP.NET示例Demo 分类： ASP.NET 2015-01-12 11:18 346人阅读评论(0) 收藏
在百度编辑器示例代码基础上进行了修改,封装成类库,只需简单配置即可使用. 完整demo下载版权声明:本文为博主原创文章,未经博主允许不得转载.
Least Common Ancestors 分类： ACM TYPE 2014-10-19 11:24 84人阅读评论(0) 收藏
#include <iostream> #include <cstdio> #include <cstring> #include <cmath> #i ...
二分图匹配（KM算法）n^4 分类： ACM TYPE 2014-10-04 11:36 88人阅读评论(0) 收藏
#include <iostream> #include<cstring> #include<cstdio> #include<cmath> #incl ...
8大排序算法图文讲解分类： Brush Mode 2014-08-18 11:49 78人阅读评论(0) 收藏
排序算法可以分为内部排序和外部排序,内部排序是数据记录在内存中进行排序,而外部排序是因排序的数据很大,一次不能容纳全部的排序记录,在排序过程中需要访问外存. 常见的内部排序算法有:插入排序.希尔排序. ...
Brush Mode --- Nyoj 737 分类： Brush Mode 2014-03-25 08:10 202人阅读评论(0) 收藏
石子合并(一) 时间限制:1000 ms | 内存限制:65535 KB 难度:3 描述有N堆石子排成一排,每堆石子有一定的数量.现要将N堆石子并成为一堆.合并的过程只能每次将相邻的两堆 ...
Hibernate检索方式分类： SSH框架 2015-07-10 22:10 4人阅读评论(0) 收藏
我们在项目应用中对数据进行最多的操作就是查询,数据的查询在所有ORM框架中也占有极其重要的地位.那么,如何利用Hibernate查询数据呢?Hibernate为我们提供了多种数据查询的方式,又称为Hi ...
C语言之void类型及void指针分类： C/C++ 2015-07-13 11:24 8人阅读评论(0) 收藏
原文网址:http://www.cnblogs.com/pengyingh/articles/2407267.html 1.概述许多初学者对C/C 语言中的void及void指针类型不甚理解,因此在 ...

随机推荐

洛谷P1908 逆序对(归并排序)
题目描述猫猫TOM和小老鼠JERRY最近又较量上了,但是毕竟都是成年人,他们已经不喜欢再玩那种你追我赶的游戏,现在他们喜欢玩统计.最近,TOM老猫查阅到一个人类称之为“逆序对”的东西,这东西是这样定 ...
Kinect 开发 —— 语音识别（上）
Kinect的麦克风阵列在Kinect设备的下方.这一阵列由4个独立的水平分布在Kinect下方的麦克风组成.虽然每一个麦克风都捕获相同的音频信号,但是组成阵列可以探测到声音的来源方向.使得能够用来识 ...
2017国家集训队作业[agc008f]Black Radius
2017国家集训队作业[agc008f]Black Radius 时隔4个月,经历了省赛打酱油和中考各种被吊打后,我终于回想起了我博客园的密码= = 题意: 给你一棵树,树上有若干个关键点.选中某 ...
[C#防止反编译].NET 产品版权保护方案 (.NET源码加密保护)
[C#防止反编译].NET 产品版权保护方案 (.NET源码加密保护) 标签: .net加密产品c#dll工具 2011-03-24 21:06 27009人阅读评论(13) 收藏举报分类: C ...
Android屏幕分辨率获取方法--源码剖析
本文来自http://blog.csdn.net/liuxian13183/ ,引用必须注明出处! 在适配的过程中,有时我们会用到屏幕宽高,那么如何获得屏幕的分辨率? 方法有两种: 第一种是通过Win ...
Monkey脚本编写
脚本优势:简单.快捷.不需要借助任何工具,可以做简单的性能测试脚本缺点:只能简单实现坐标.按键等基本操作,无逻辑性脚本格式:
关于Promise详解
异步回调回调地狱在需要多个操作的时候,会导致多个回调函数嵌套,导致代码不够直观,就是常说的回调地狱并行结果如果几个异步操作之间并没有前后顺序之分,但需要等多个异步操作都完成后才能执行后续的任务 ...
关于MyBatis sqlSession的一点整理
工作中,需要学习一下MyBatis sqlSession的产生过程,翻看了mybatis-spring的源码,阅读了一些mybatis的相关doc,对mybatis sqlSession有了一些认知和 ...
l洛谷 P3926 SAC E#1 - 一道不可做题 Jelly
P3926 SAC E#1 - 一道不可做题 Jelly 题目背景 SOL君(炉石主播)和SOL菌(完美信息教室讲师)是好朋友. 题目描述 SOL君很喜欢吃蒟蒻果冻.而SOL菌也很喜欢蒟蒻果冻. 有一 ...
cwRsync 同步时报错 STATUS_ACCESS_VIOLATION
cwRsync 同步时报错 STATUS_ACCESS_VIOLATION windows XP 执行 cwRsync 同步时报错: 2 [main] rsync 3044 _cygtls::h ...

spark1.3.1使用基础教程 分类： B8_SPARK 2015-04-28 11:10 1651人阅读 评论(0) 收藏

spark1.3.1使用基础教程 分类： B8_SPARK 2015-04-28 11:10 1651人阅读 评论(0) 收藏的更多相关文章

随机推荐

热门专题

spark1.3.1使用基础教程分类： B8_SPARK 2015-04-28 11:10 1651人阅读评论(0) 收藏

spark1.3.1使用基础教程分类： B8_SPARK 2015-04-28 11:10 1651人阅读评论(0) 收藏的更多相关文章